ObviousBench: бенчмарк для выявления очевидных сбоев LLM в более мелких моделях

ObviousBench — это новый бенчмарк, предназначенный для оценки видимых сбоев в больших языковых моделях, с акцентом на то, как выбор конфигурации влияет на уровень ошибок. Инструмент подчеркивает компромиссы между размером модели, скоростью и способностями к рассуждению, а не просто ранжирует производительность.

GPT-5.4 nano демонстрирует рост доли успешных ответов с 36,8% при отсутствии рассуждений до 91,7% при высоких настройках рассуждения.
Бенчмарк измеряет риск видимых сбоев в конфигурациях более мелких, дешевых, быстрых или моделей с пониженной способностью к рассуждению.
Исходный код доступен на GitHub по адресу adamallcock/obviousbench.

Этот подход помогает пользователям понять, как конкретные конфигурации моделей влияют на надежность и видимость ошибок в практических приложениях.