연구는 클러스터 기반 의미 청킹이 검색 증강 생성(RAG) 시스템에서 검색 및 답변 품질을 개선하는지, 고정 크기 및 재귀적 청킹 전략과 비교하여 평가합니다. 이 평가는 RAGAs 프레임워크를 사용하여 길고 구조화된 학술 논문에 초점을 맞춥니다.

  • 테스트된 구성에서 클러스터 기반 청킹은 더 간단한 전략보다 우수하지 않았습니다.
  • 고정 질문과 문서 특정 질문에 대한 성능은 문서 서식 및 전처리와 관련되어 크게 변동했습니다.
  • 이 설정에서 RAGs 기반의 충실도는 제한된 신뢰성만 보였습니다.

이러한 발견은 이 특정 사용 사례에 대해 더 복잡한 청킹 방법이 더 간단한 접근 방식보다 이점을 제공하지 않을 수 있음을 시사합니다.