Los autores presentan DiscoBench, un benchmark diseñado para evaluar si los agentes de búsqueda impulsados por modelos de lenguaje grandes pueden identificar proactivamente la ambigüedad y formular preguntas de aclaración efectivas durante tareas de búsqueda profunda. A diferencia de los benchmarks existentes que asumen consultas de usuario completas, este marco aborda la realidad de las solicitudes vagas o insuficientemente especificadas en escenarios del mundo real.

  • El conjunto de datos contiene 211 muestras y 463 instancias de ambigüedad en 11 dominios del mundo real, cubriendo cuatro tipos distintos de ambigüedad.
  • Se ha diseñado un simulador de usuario para facilitar la interacción multi-turno con el fin de evaluar el rendimiento del modelo.
  • Las métricas de evaluación incluyen utilidad de la tarea, detección de ambigüedad, estrategia de interacción y eficiencia en costos.
  • Los experimentos en LLMs representativos revelan que la detección de ambigüedad y la aclaración efectiva son capacidades distintas.
  • Los resultados muestran que buscar repetidamente en lugar de pedir aclaraciones a menudo tiene un rendimiento peor que adivinar directamente.

Este trabajo destaca una brecha crítica entre la capacidad de recuperación y la resolución interactiva de problemas en los agentes de búsqueda actuales, enfatizando la necesidad de que los modelos manejen eficazmente las consultas insuficientemente especificadas.