SABER-Math: Автоматизированный бенчмарк для оценки информационного поиска в математике

Исследователи представляют SABER-Math, первый полностью автоматизированный бенчмарк для оценки математического информационного поиска без экспертной аннотации, решающий проблему изоляции влияния ретривера на итоговую производительность.

Бенчмарк использует 283K задач по математике школьного уровня для создания сложных задач ранжирования с помощью суммаризаций, извлеченных LLM, и онтологической схожести.
Швейцарский турнир предпочтений LLM генерирует детализированные оценки релевантности документов в этих задачах.
Оценка показывает, что современные модели эмбеддингов превосходят классические базовые линии, но испытывают трудности в областях с обилием символов, таких как Алгебра и Матанализ.
Универсальные бенчмарки, такие как MTEB, не способны надежно предсказывать результаты в математике, что подчеркивает необходимость специализированных инструментов оценки.

Исследование подчеркивает необходимость математически-специфичных бенчмарков для информационного поиска, поскольку существующие универсальные оценки неточно отражают производительность на сложных математических задачах.