SABER-Math: Автоматизированный бенчмарк для оценки информационного поиска в математике
Исследователи представляют SABER-Math, первый полностью автоматизированный бенчмарк для оценки математического информационного поиска без экспертной аннотации, решающий проблему изоляции влияния ретривера на итоговую производительность.