Бенчмарки OpenMythos теперь доступны, оценивающие производительность на SWE-bench Pro, CyberGym и cybench. Модель демонстрирует сильные возможности для небольшой модели, ориентированной на кибербезопасность, хотя запланировано дальнейшее обучение для улучшения производительности. Результаты показывают расхождения между оценками Qwen 3.5 и 3.6 на SWE-bench из-за различных методов оценки и фильтрации задач.
Опубликованы бенчмарки OpenMythos с результатами SWE-bench и в области кибербезопасности
Переведено с English → Русский