Los benchmarks de OpenMythos ya están disponibles, evaluando el rendimiento en SWE-bench Pro, CyberGym y cybench. El modelo muestra capacidades sólidas para un modelo pequeño centrado en ciberseguridad, aunque se planea más entrenamiento para mejorar el rendimiento. Los resultados destacan discrepancias entre las puntuaciones de SWE-bench de Qwen 3.5 y 3.6 debido a diferentes métodos de evaluación y filtrado de problemas.
Lanzamiento de los benchmarks de OpenMythos con resultados de SWE-bench y ciberseguridad
Traducido del English → Español