Исследования показывают, что ложная обратная связь может привести к тому, что агенты на основе языковых моделей будут выполнять задачи хуже, чем при отсутствии обратной связи вообще. На платформе HotpotQA, Qwen2.5-7B снижается с 44,8 до 4,7 F1 при случайной сортировке результатов, несмотря на чистые инструменты. Эти результаты указывают на то, что приросты, связанные с инструментами, могут быть переоценены, и контрольные испытания без обратной связи являются необходимыми для корректной оценки.
Надежная обратная связь может нанести вред агентам с использованием инструментов
Переведено с English → Русский