В статье представлен Ko-WideSearch, новый бенчмарк, разработанный для оценки возможностей широкого поиска веб-агентов на корейском языке, что решает проблему отсутствия метрик полного перечисления множеств вне английского языка.

  • Бенчмарк использует автоматизированный конвейер синтеза и проверки для создания задач, требующих полных таблиц членства и атрибутов для 190 сущностей в 16 категориях.
  • Он охватывает 228 таблиц, оцениваемых по метрикам Item-, Column- и Row-F1, при этом сложность контролируется шириной таблицы и составными ключами.
  • Оценка двадцати веб-агентов выявила устойчивую закономерность сбоев: агенты восстанавливают множества, но не отдельные строки, причем точность падает по мере роста структурной сложности.
  • Анализ показывает, что основная сложность заключается в нахождении правильного значения в ячейках со свободным текстом, тогда как стандартные ответы, такие как даты или имена, обрабатываются корректно.

Этот бенчмарк подчеркивает значительный разрыв в производительности текущих веб-агентов в отношении полного извлечения данных и предоставляет стандартизированный метод оценки этой конкретной способности.