합성 헬스케어 데이터베이스 벤치마크는 롤업 문서 및 Small-to-Big 검색과 같은 데이터 표현 최적화가 쿼리 재작성 및 reranking과 같은 표준 RAG 업그레이드보다 훨씬 뛰어난 성능을 보인다는 것을 입증했습니다.

  • 저자는 가짜 환자, 의사, 청구 기록을 대상으로 한 30문항의 평가 세트를 구축하여 다양한 RAG 기법을 테스트했습니다.
  • 기본 벡터 검색은 2.856/5의 답변 점수를 기록했으며, 쿼리 재작성과 BGE reranking을 추가해도 3.056/5로만 향상되었습니다.
  • Small-to-Big 검색(작은 청크를 검색한 후 전체 레코드로 확장)은 컨텍스트 기아 없이 정확한 매칭을 제공하여 점수를 4.044/5로 개선했습니다.
  • 진료 횟수 및 청구 총액과 같은 집계 데이터를 위한 사전 계산된 롤업 문서를 추가하면 답변 점수가 4.622/5로, 하드 질문 점수가 4.500/5로 향상되었습니다.
  • 최종 Jina reranker 실행은 0.792의 최고 검색 MRR을 달성했지만, 롤업 구성이 가장 우수한 전반적인 답변 품질을 제공했습니다.

이 결과는 RAG 품질이 종종 모델 문제가 아닌 데이터 표현 문제임을 시사하며, 엔티티 수준 조회나 집계 계산과 같은 쿼리 유형에 맞게 문서 구조를 정렬할 필요성을 강조합니다.