Um estudo avalia se o chunking semântico baseado em clusters melhora a recuperação e a qualidade das respostas em sistemas de Geração Aumentada por Recuperação (RAG) em comparação com as estratégias de chunking de tamanho fixo e recursivo. A avaliação foca em teses acadêmicas longas e estruturadas usando o framework RAGAs.

  • O chunking baseado em clusters não superou as estratégias mais simples na configuração testada.
  • O desempenho em perguntas fixas versus perguntas específicas do documento variou substancialmente, provavelmente relacionado à formatação do documento e ao pré-processamento.
  • A fidelidade baseada no RAGAs mostrou confiabilidade limitada nesta configuração.

Os achados sugerem que métodos de chunking mais complexos podem não oferecer vantagens sobre abordagens mais simples para este caso de uso específico.