ObviousBench — это новый бенчмарк, предназначенный для оценки видимых сбоев в больших языковых моделях, с акцентом на то, как выбор конфигурации влияет на уровень ошибок. Инструмент подчеркивает компромиссы между размером модели, скоростью и способностями к рассуждению, а не просто ранжирует производительность.

  • GPT-5.4 nano демонстрирует рост доли успешных ответов с 36,8% при отсутствии рассуждений до 91,7% при высоких настройках рассуждения.
  • Бенчмарк измеряет риск видимых сбоев в конфигурациях более мелких, дешевых, быстрых или моделей с пониженной способностью к рассуждению.
  • Исходный код доступен на GitHub по адресу adamallcock/obviousbench.

Этот подход помогает пользователям понять, как конкретные конфигурации моделей влияют на надежность и видимость ошибок в практических приложениях.