ObviousBench: бенчмарк для выявления очевидных сбоев LLM в более мелких моделях
ObviousBench — это новый бенчмарк, предназначенный для оценки видимых сбоев в больших языковых моделях, с акцентом на то, как выбор конфигурации влияет на уровень ошибок. Инструмент подчеркивает компромиссы между размером модели, скоростью и способностями к рассуждению, а не просто ранжирует производительность.