DiscoBench: Un benchmark para la búsqueda profunda consciente de la aclaración

Los autores presentan DiscoBench, un benchmark diseñado para evaluar si los agentes de búsqueda impulsados por modelos de lenguaje grandes pueden identificar proactivamente la ambigüedad y formular preguntas de aclaración efectivas durante tareas de búsqueda profunda. A diferencia de los benchmarks existentes que asumen consultas de usuario completas, este marco aborda la realidad de las solicitudes vagas o insuficientemente especificadas en escenarios del mundo real.

El conjunto de datos contiene 211 muestras y 463 instancias de ambigüedad en 11 dominios del mundo real, cubriendo cuatro tipos distintos de ambigüedad.
Se ha diseñado un simulador de usuario para facilitar la interacción multi-turno con el fin de evaluar el rendimiento del modelo.
Las métricas de evaluación incluyen utilidad de la tarea, detección de ambigüedad, estrategia de interacción y eficiencia en costos.
Los experimentos en LLMs representativos revelan que la detección de ambigüedad y la aclaración efectiva son capacidades distintas.
Los resultados muestran que buscar repetidamente en lugar de pedir aclaraciones a menudo tiene un rendimiento peor que adivinar directamente.

Este trabajo destaca una brecha crítica entre la capacidad de recuperación y la resolución interactiva de problemas en los agentes de búsqueda actuales, enfatizando la necesidad de que los modelos manejen eficazmente las consultas insuficientemente especificadas.