DiscoBench: Un benchmark para la búsqueda profunda consciente de la aclaración
Los autores presentan DiscoBench, un benchmark diseñado para evaluar si los agentes de búsqueda impulsados por modelos de lenguaje grandes pueden identificar proactivamente la ambigüedad y formular preguntas de aclaración efectivas durante tareas de búsqueda profunda. A diferencia de los benchmarks existentes que asumen consultas de usuario completas, este marco aborda la realidad de las solicitudes vagas o insuficientemente especificadas en escenarios del mundo real.