새로운 연구는 구조를 이해했음에도 불구하고 표의 값을 잘못 인용하거나 누락하는 테이블 데이터 참조 오류(DREs)에 대한 첫 번째 체계적 평가를 제시합니다. 이 연구는 1.7B에서 20B 파라미터에 이르는 모든 테스트된 모델에서 이러한 오류가 발생한다는 것을 발견했습니다.
- DREs는 대규모 언어 모델의 중간 추론 단계의 정확성과 신뢰성을 훼손합니다.
- 비평가로서 데이터 참조를 통합하면 필터링과 거부 샘플링을 통해 답변 정확도를 최대 12.0% 향상시킬 수 있습니다.
- 분포 내 및 분포 외 DRE를 감지하기 위해 평균 F1 점수 78.2%를 달성한 경량 4B 파라미터 비평가 모델이 훈련되었습니다.
저자들은 전용 비평가 모델을 사용하여 이러한 특정 참조 실패를 식별함으로써 더 큰 모델의 추론을 효과적으로 보조할 수 있음을 보여줍니다.