SABER-Math: Benchmark automatizado para la evaluación de recuperación de información en matemáticas

Los investigadores presentan SABER-Math, el primer benchmark completamente automatizado para evaluar la recuperación de información matemática sin anotación experta, abordando la dificultad de aislar los efectos del recuperador en el rendimiento posterior.

El benchmark utiliza 283K problemas de matemáticas de nivel de escuela secundaria para crear tareas de reordenamiento desafiantes mediante resúmenes extraídos por LLM y similitudes basadas en ontologías.
Un torneo de preferencias LLM al estilo suizo genera calificaciones de relevancia detalladas para los documentos dentro de estas tareas.
La evaluación revela que los modelos de incrustación modernos superan a las bases clásicas, pero tienen dificultades en dominios con muchos símbolos como Álgebra y Cálculo.
Los benchmarks de propósito general como MTEB no logran predecir de manera confiable el rendimiento matemático, destacando la necesidad de herramientas de evaluación especializadas.

El estudio destaca la necesidad de benchmarks de recuperación específicos para matemáticas porque las evaluaciones generales existentes no reflejan con precisión el rendimiento en tareas matemáticas complejas.