Исследователи представляют SABER-Math, первый полностью автоматизированный бенчмарк для оценки математического информационного поиска без экспертной аннотации, решающий проблему изоляции влияния ретривера на итоговую производительность.
- Бенчмарк использует 283K задач по математике школьного уровня для создания сложных задач ранжирования с помощью суммаризаций, извлеченных LLM, и онтологической схожести.
- Швейцарский турнир предпочтений LLM генерирует детализированные оценки релевантности документов в этих задачах.
- Оценка показывает, что современные модели эмбеддингов превосходят классические базовые линии, но испытывают трудности в областях с обилием символов, таких как Алгебра и Матанализ.
- Универсальные бенчмарки, такие как MTEB, не способны надежно предсказывать результаты в математике, что подчеркивает необходимость специализированных инструментов оценки.
Исследование подчеркивает необходимость математически-специфичных бенчмарков для информационного поиска, поскольку существующие универсальные оценки неточно отражают производительность на сложных математических задачах.