DICE, un método sin entrenamiento, divide los documentos largos en fragmentos, los codifica de forma independiente y agrega los resultados en un solo vector. Reduce el Índice de Dilución de Evidencia en el 92,8 % de los casos en LongEmbed, mejorando significativamente el rendimiento de recuperación para segmentos superiores a 4k tokens en cuatro backbones.
DICE mejora la recuperación de documentos largos con agregación de evidencia por fragmentos
Traducido del English → Español