Un estudio evalúa si el fragmentado semántico basado en clústeres mejora la recuperación y la calidad de las respuestas en sistemas de Generación Aumentada por Recuperación (RAG) en comparación con las estrategias de fragmentado de tamaño fijo y recursivo. La evaluación se centra en tesis académicas largas y estructuradas utilizando el marco RAGAs.
- El fragmentado basado en clústeres no superó a las estrategias más simples bajo la configuración probada.
- El rendimiento en preguntas fijas frente a preguntas específicas del documento varió sustancialmente, probablemente relacionado con el formato del documento y el preprocesamiento.
- La fidelidad basada en RAGAs mostró una fiabilidad limitada en esta configuración.
Los hallazgos sugieren que los métodos de fragmentado más complejos pueden no ofrecer ventajas sobre los enfoques más simples para este caso de uso específico.