Авторы представляют DiscoBench — бенчмарк, предназначенный для оценки способности поисковых агентов на базе больших языковых моделей проактивно выявлять неоднозначность и задавать эффективные уточняющие вопросы в ходе задач глубокого поиска. В отличие от существующих бенчмарков, которые предполагают полноту пользовательских запросов, данная фреймворк учитывает реальность нечётких или недостаточно специфицированных запросов в реальных сценариях.

  • Датасет содержит 211 примеров и 463 случая неоднозначности по 11 реальным доменам, охватывая четыре различных типа неоднозначности.
  • Разработан симулятор пользователя для обеспечения многооборотного взаимодействия при оценке производительности моделей.
  • Метрики оценки включают полезность задачи, обнаружение неоднозначности, стратегию взаимодействия и эффективность по затратам.
  • Эксперименты на репрезентативных LLM показывают, что обнаружение неоднозначности и эффективные уточнения — это различные способности.
  • Результаты демонстрируют, что многократный поиск вместо запроса уточнений часто даёт худшие результаты, чем прямое угадывание.

Эта работа подчеркивает критический разрыв между способностью к извлечению информации и интерактивным решением проблем в текущих поисковых агентах, акцентируя необходимость эффективной обработки недостаточно специфицированных запросов моделями.