Исследователи представляют SABER-Math, первый полностью автоматизированный бенчмарк для оценки математического информационного поиска без экспертной аннотации, решающий проблему изоляции влияния ретривера на итоговую производительность.

  • Бенчмарк использует 283K задач по математике школьного уровня для создания сложных задач ранжирования с помощью суммаризаций, извлеченных LLM, и онтологической схожести.
  • Швейцарский турнир предпочтений LLM генерирует детализированные оценки релевантности документов в этих задачах.
  • Оценка показывает, что современные модели эмбеддингов превосходят классические базовые линии, но испытывают трудности в областях с обилием символов, таких как Алгебра и Матанализ.
  • Универсальные бенчмарки, такие как MTEB, не способны надежно предсказывать результаты в математике, что подчеркивает необходимость специализированных инструментов оценки.

Исследование подчеркивает необходимость математически-специфичных бенчмарков для информационного поиска, поскольку существующие универсальные оценки неточно отражают производительность на сложных математических задачах.