Une étude évalue si le fractionnement sémantique basé sur des clusters améliore la qualité de la récupération et des réponses dans les systèmes de Génération Augmentée par Récupération (RAG) par rapport aux stratégies de fractionnement de taille fixe et récursif. L'évaluation se concentre sur des thèses académiques longues et structurées en utilisant le framework RAGAs.

  • Le fractionnement basé sur des clusters n'a pas surpassé les stratégies plus simples dans la configuration testée.
  • Les performances sur les questions fixes par rapport aux questions spécifiques au document ont varié considérablement, probablement liées à la mise en forme et au prétraitement du document.
  • La fidélité basée sur RAGAs a montré une fiabilité limitée dans cette configuration.

Ces résultats suggèrent que des méthodes de fractionnement plus complexes peuvent ne pas offrir d'avantages par rapport aux approches plus simples pour ce cas d'utilisation spécifique.