DiscoBench: бенчмарк для глубокого поиска с учётом уточнений

Авторы представляют DiscoBench — бенчмарк, предназначенный для оценки способности поисковых агентов на базе больших языковых моделей проактивно выявлять неоднозначность и задавать эффективные уточняющие вопросы в ходе задач глубокого поиска. В отличие от существующих бенчмарков, которые предполагают полноту пользовательских запросов, данная фреймворк учитывает реальность нечётких или недостаточно специфицированных запросов в реальных сценариях.

Датасет содержит 211 примеров и 463 случая неоднозначности по 11 реальным доменам, охватывая четыре различных типа неоднозначности.
Разработан симулятор пользователя для обеспечения многооборотного взаимодействия при оценке производительности моделей.
Метрики оценки включают полезность задачи, обнаружение неоднозначности, стратегию взаимодействия и эффективность по затратам.
Эксперименты на репрезентативных LLM показывают, что обнаружение неоднозначности и эффективные уточнения — это различные способности.
Результаты демонстрируют, что многократный поиск вместо запроса уточнений часто даёт худшие результаты, чем прямое угадывание.

Эта работа подчеркивает критический разрыв между способностью к извлечению информации и интерактивным решением проблем в текущих поисковых агентах, акцентируя необходимость эффективной обработки недостаточно специфицированных запросов моделями.