Оценка Reclaim показывает, что потеряющая память хуже, чем отсутствие памяти
Исследование демонстрирует, что наличие в памяти языковой модели неверных выводов более вредно, чем полное отсутствие памяти. Когда модели сохраняют устаревшие значения, отбрасывая при этом поддерживающие данные, они выдают уверенные, но ошибочные ответы, тогда как пустая память позволяет воздерживаться от ответов. Это явление, названное хрупкой памятью (brittle memory), наблюдалось в семи моделях, причем направление ошибки никогда не менялось независимо от задачи или disposition. Исследователи предложили оценку Reclaim для измерения исправляемости путем сжатия взаимодействий и проверки того, восстанавливаются ли коррекции до ground truth без использования judge. Результаты показывают, что исправляемость зависит от того, сохраняется ли исходная информация после сжатия, а не от возможностей модели. Политика source-first, которая сохраняет пересчитываемые источники и отбрасывает выводимые заключения, значительно лучше восстанавливает исправляемость по сравнению с контрольными группами, сопоставленными по длине. В циклах связанной памяти ошибки из-за потери источников необратимо искажают последующие шаги, тогда предлагаемое решение поддерживает ограниченные горизонты производительности. Выводы воспроизводятся в трех развернутых системах и реальных диалоговых данных, при этом hand-built oracle достигает идеальной точности.