Evaluation & benchmarks
arxiv arXiv cs.CL · 8 д назад

Второй порядок смещения в LLM: оценка смещения на основе суждений

Новое исследование выявляет второе порядок смещения в больших языковых моделях — социальное смещение в их оценках содержания смещенного. Используя эпистемологию привилегии, исследование разрабатывает задачу логического мышления для оценки того, принимают ли LLM смещённые тексты на основе демографических характеристик, выявляя скрытые смещения, которые варьируются в зависимости от целевой группы и ускользают от механизмов безопасности. Работа вводит два метрики для количественного измерения этих смещений и призывает к более теоретически обоснованным методам оценки в области NLP.

arxiv arXiv cs.CL · 8 д назад

Падение и восстановление точности маршрутизации в системах агентов предприятий

При увеличении каталога инструментов агентов предприятий от 10 до 110 агентов, точность маршрутизации снижается на 16--23 процентных пункта при запросах с недостаточным описанием. Анализ с использованием оракула выявляет разрывы в извлечении и путанице, при использовании базы векторных представлений для сокращения списка результатов восстанавливается +10--11pp F1. Изучение 1435 изъятий с участием человека подтверждает реальное восстановление +10--17pp, несмотря на более низкую абсолютную производительность.

arxiv arXiv cs.CL · 8 д назад

Анализ выразительности иерархических моделей в глубоких трансформерах

В этой статье проводится анализ выразительности глубоких трансформеров с использованием ограниченных грамматик. Авторы строят трансформеры с позиционным вниманием, при котором глубина модели растет линейно с глубиной грамматики, а количество нейронов растет квадратично с числом правил вывода. Результаты подтверждают гипотезу о линейной представимости, показывая, что такие модели могут кодировать абстрактные грамматические состояния в низкодименсиональных линейно разделимых подпространствах.

arxiv arXiv cs.CL · 8 д назад

Декодирование NAR-MBR для быстрой и точной распознавания речи

Декодирование NAR-MBR улучшает распознавание речи за счёт максимизации ожидаемой полезности от отобранных выходов неавторегрессивных моделей. Оно обеспечивает лучшие результаты по сравнению с предыдущими методами NAR и работает быстрее, чем авторегрессивное декодирование, на нескольких корпусах.

arxiv arXiv cs.CL · 8 д назад

Функции LLM могут навредить GNN через интерференцию при конкатенации

Конкатенация функций, сгенерированных LLM, к графовым нейронным сетям систематически снижает точность на тестах с гомофильными данными, при этом точность PubMed снижается на -17,0 ± 0,3 pp. Эта деградация связана с дискриминативностью LLM в отдельности (Delta_sig), которая коррелирует сильно с затратами на конкатенацию (r² = 0,38) и демонстрирует степенную зависимость от размера признаков и количества узлов (r² = 0,97), особенно в условиях низкого Delta_sig и низкого количества узлов.

arxiv arXiv cs.CL · 8 д назад

Сжатые модели языковых моделей не справляются с открытым генерированием, несмотря на успешное прохождение тестов на выбор одного из вариантов

Сжатые большие языковые модели часто успешно справляются с тестами на выбор одного из вариантов, но не справляются с генерацией корректных ответов в открытых ответах. Эта "обманная оценка" показывает, что ответы не удаляются, а лишь снижаются по значимости, и появляются только при использовании продвинутых методов генерации, таких как beam search или sampling. Стандартные оценочные тесты переоценивают практическую применимость сжатых моделей, подчеркивая критическую пробел в оценке.

arxiv arXiv cs.CL · 8 д назад

OPD-Evolver: Он-политическая дистилляция для всестороннего эволюционирования агентов

OPD-Evolver представляет рамку медленного и быстрого совместного эволюционирования, которая позволяет агентам выбирать, действовать и повторно использовать опыт через он-политическую самодистилляцию. Он превосходит существующие методы на основе памяти и обучения на 11,5% и 5,8% соответственно, и демонстрирует способность конкурировать с крупномасштабными моделями, такими как Qwen3.5-397B-A17B и Step-3.5-Flash.

arxiv arXiv cs.CL · 8 д назад

Пerturbation запроса для надежной оценки больших языковых моделей

Новая система использует возмущение запроса для выявления и фильтрации структурно несогласованных парных сравнений в оценках больших языковых моделей. Внедрение проверок на согласованность на уровне графа до агрегации ранжирований позволяет снизить циклические предпочтения и повысить надежность ранжирований больших языковых моделей.

arxiv arXiv cs.CL · 8 д назад

SkillMigrator обеспечивает передачу навыков веб-сайтов через совпадение разметки

SkillMigrator обучает повторноиспользуемые веб-навыки путем совпадения структур разметки, а не конкретных ссылок на элементы. Он хранит каждый навык как передаваемый паттерн взаимодействия (TIP) с структурной схемой, что позволяет эффективно использовать навыки на разных сайтах. В сравнении с современными методами, он снижает среднее количество действий LLM на 8-10% на WebArena и Mind2Web при достижении одинаковых уровней успеха.

arxiv arXiv cs.CL · 8 д назад

MambaCount: Эффективный текст-ориентированный подсчет объектов

MambaCount вводит пространственно разреженный блок двойственного состояния для обеспечения эффективного текст-ориентированного подсчета объектов в открытой лексике. Оно решает ограничения касательно причинной модели и высокую энтропию в ответах на пространственные токены, достигая лучших результатов на FSC-147 с тестовой ошибкой MAE 12.23, при этом сохраняя линейную сложность.

arxiv arXiv cs.CL · 8 д назад

SuCo: адаптивное обоснованное рассуждение, основанное на достаточности

SuCo вводит минимально достаточное рассуждение (MSC) как самое короткое начало рассуждения, достаточное для получения правильного ответа. Оно использует двухэтапную систему обучения — настройку MSC и оптимизацию политики с учетом достаточности — для сокращения длины рассуждения при сохранении или улучшении точности на задачах по математике, программированию и науке.

arxiv arXiv cs.CL · 8 д назад

LLMs определяют культурный контекст, но не применяют его

LLMs могут обнаруживать культурные сигналы и запоминать культурные нормы, но часто не адаптируют ответы в соответствии с ними. Их ответы остаются склонными к их родной культуре, если не явно запрашиваются последовательные действия по применению культурного контекста.

arxiv arXiv cs.CL · 8 д назад

EComAgentBench: Оценка агентов покупок с скрытой целью

EComAgentBench представляет бенчмарк из 662 реальных задач Amazon, распределяющих требования покупателя по запросу, профилю и уточнению. Агенты должны выявить скрытую цель, проверить кандидатов с помощью доказательств и принять решение о продукте в течение 100 вызовов инструментов, при этом типовые критерии отражают неудачи по конкретным источникам требований. Оценка показывает, что даже самые лучшие модели достигают лишь 57,1% точности, и удовлетворенность критериями падает, когда цель скрыта.

arxiv arXiv cs.CL · 8 д назад

Несоответствие кодовых стандартов агентной разработке программного обеспечения

Текущие кодовые стандарты были разработаны до появления агентной разработки программного обеспечения и не отражают сложность реальных систем. Они смешивают производительность модели с полным решением, игнорируют допустимые альтернативные решения и не содержат сигналов обратной связи на уровне отдельных компонентов, что делает итеративное улучшение сложным.

arxiv arXiv cs.CL · 8 д назад

DIFE проверяет проникновение бэкдора в CLIP на разных интерфейсах развертывания

DIFE оценивает проникновение бэкдора в контрольных точках CLIP на различных интерфейсах развертывания, показывая, что успешная работа в нативной среде не гарантирует безопасность при повторном использовании. Фреймворк демонстрирует, что заражение текстовой стороны позволяет создавать атакующие воздействия в задачах поиска, переранжирования и выбора, в то время как использование только визуальных данных остается в значительной степени не затронутым. Вводится BadTextTower для генерации сильного текстового воздействия без ущерба для визуальной производительности.

arxiv arXiv cs.CL · 8 д назад

Концептуальная рамка оценки агентных навыков на масштабе

Мы предлагаем рамку оценки агентных навыков, при которой создаются реалистичные задачи и оцениваются полезность навыков путем выполнения задач. Применение к 500 реальным навыкам генерирует 1000 задач и критериев оценки, оценивая 19 конфигураций агент-моделей на проприетарных и открытых моделях. Результаты показывают значительные различия в соблюдении инструкций и росте производительности, при этом навыки существенно изменяют поведение моделей по сравнению с конфигурациями без навыков.

arxiv arXiv cs.CL · 8 д назад

Двухязычная настройка улучшает автоматическое распознавание речи в языках с низким количеством ресурсов с использованием идентификации языка

Исследование показало, что двухязычная настройка повышает автоматическое распознавание речи в языках с низким количеством ресурсов при точной идентификации языка. Включение токена идентификации языка на этапе инференса улучшает производительность распознавания речи при низкой точности идентификации, особенно в разнообразных парах языков из разных семей и систем письма.

arxiv arXiv cs.CL · 8 д назад

MultiClin Benchmark для мультискриптовой ASR в клинических условиях

MultiClin представляет клинический бенчмарк ASR, который оценивает устойчивость моделей к вариабельности мультискриптов. Оно показывает, что мультискриптовая оценка превосходит традиционные методы с одним эталоном, и унификация скриптов обеспечивает наилучшую производительность ASR, в то время как несогласованные отображения скриптов увеличивают орфографическую неопределённость.

arxiv arXiv cs.CL · 8 д назад

Самообучаемые модели речи не учитывают компенсацию тонального контекста

Модель wav2vec2.0 не показывает никаких признаков перцептивной компенсации мандаринских тонов в сходствах встраиваемых векторов. Классификаторы, используемые для исследования, показывают ограниченную компенсацию и не достигают уровня человеческой производительности при изоляции слогов, что указывает на необходимость надзора при обучении для абстракции фонологической регулярности.

arxiv arXiv cs.CL · 8 д назад

Автоматизированная оптимизация промптов для агентов на основе ЛЛМ

Новый фреймворк автоматизирует улучшение промптов для агентов на основе ЛЛМ, разделяя поток от наблюдения до действия на модули с целью и выбора действия. Он использует эволюционный цикл, управляемый ЛЛМ, для итеративного улучшения промптов на основе обратной связи от среды, достигая до 72,5% успеха в PutNext, где предыдущие агенты не справлялись, без тонкой настройки модели.