DICE улучшает поиск в длинных документах с агрегацией доказательств по кускам

DICE, метод без обучения, разделяет длинные документы на куски, кодирует их независимо и агрегирует результаты в один вектор. Он снижает индекс размытия доказательств в 92,8% случаев на LongEmbed, что значительно улучшает производительность поиска для фрагментов длиной более 4k токенов при четырёх основах.