Un nuevo estudio presenta la primera evaluación sistemática de errores de referencia de datos tabulares (DRE), que implican citar incorrectamente u omitir valores de tabla a pesar de comprender la estructura. La investigación encuentra que estos errores ocurren en todos los modelos probados, desde 1.7B hasta 20B parámetros.
- Los DRE comprometen la corrección y fiabilidad de los pasos intermedios de razonamiento en grandes modelos lingüísticos.
- Incorporar la referencia de datos como un crítico mejora la precisión de las respuestas hasta un 12.0% mediante filtrado y muestreo por rechazo.
- Se entrenó un modelo crítico ligero de 4B parámetros, alcanzando una puntuación F1 media del 78.2% para detectar DRE tanto dentro como fuera de la distribución.
Los autores demuestran que el uso de un modelo crítico dedicado asiste eficazmente la inferencia en modelos más grandes al identificar estos fallos específicos de referencia.