El artículo presenta Ko-WideSearch, una nueva prueba de referencia diseñada para evaluar las capacidades de búsqueda amplia de los agentes web en coreano, abordando la falta de métricas de enumeración exhaustiva de conjuntos fuera del inglés.
- La prueba de referencia utiliza un pipeline automatizado de síntesis y verificación para crear tareas que requieren tablas completas de membresía y atributos para 190 entidades en 16 categorías.
- Abarca 228 tablas calificadas por Item-F1, Column-F1 y Row-F1, con la dificultad controlada por el ancho de la tabla y las claves compuestas.
- La evaluación de veinte agentes web revela un patrón de fallo consistente donde los agentes recuperan conjuntos pero no filas individuales, con una caída en la precisión a medida que aumenta la complejidad estructural.
- El análisis muestra que encontrar el valor correcto en celdas de texto libre de final abierto es el principal desafío, mientras que las respuestas estándar como fechas o nombres se manejan correctamente.
Esta prueba de referencia destaca la brecha significativa en el rendimiento actual de los agentes web en cuanto a la recuperación exhaustiva de datos y proporciona un método estandarizado para evaluar esta capacidad específica.