Reasoning models
arxiv arXiv cs.CL · 8 д назад

Второй порядок смещения в LLM: оценка смещения на основе суждений

Новое исследование выявляет второе порядок смещения в больших языковых моделях — социальное смещение в их оценках содержания смещенного. Используя эпистемологию привилегии, исследование разрабатывает задачу логического мышления для оценки того, принимают ли LLM смещённые тексты на основе демографических характеристик, выявляя скрытые смещения, которые варьируются в зависимости от целевой группы и ускользают от механизмов безопасности. Работа вводит два метрики для количественного измерения этих смещений и призывает к более теоретически обоснованным методам оценки в области NLP.

arxiv arXiv cs.CL · 8 д назад

LLMs превосходят людей по предсказанию следующего говорящего

Большие языковые модели превосходили людей и модели супервизионного обучения при предсказании следующего говорящего с использованием корпуса AMI, несмотря на отсутствие аудиовизуальных данных и доменной подготовки. Мультимодальные LLMs превосходили текстовые LLMs по обнаружению адресата и изменениях в диалоге, но все еще не достигали уровня человеческой производительности, подчеркивая трудности в использовании исходных аудиовизуальных сигналов. Исследования с устранением компонентов показывают, что контекст диалога является критически важным, особенно для предсказания следующего говорящего, при этом как люди, так и LLMs испытывают трудности при частых изменениях ритма диалога.

arxiv arXiv cs.CL · 8 д назад

Анализ выразительности иерархических моделей в глубоких трансформерах

В этой статье проводится анализ выразительности глубоких трансформеров с использованием ограниченных грамматик. Авторы строят трансформеры с позиционным вниманием, при котором глубина модели растет линейно с глубиной грамматики, а количество нейронов растет квадратично с числом правил вывода. Результаты подтверждают гипотезу о линейной представимости, показывая, что такие модели могут кодировать абстрактные грамматические состояния в низкодименсиональных линейно разделимых подпространствах.

arxiv arXiv cs.CL · 8 д назад

Функции LLM могут навредить GNN через интерференцию при конкатенации

Конкатенация функций, сгенерированных LLM, к графовым нейронным сетям систематически снижает точность на тестах с гомофильными данными, при этом точность PubMed снижается на -17,0 ± 0,3 pp. Эта деградация связана с дискриминативностью LLM в отдельности (Delta_sig), которая коррелирует сильно с затратами на конкатенацию (r² = 0,38) и демонстрирует степенную зависимость от размера признаков и количества узлов (r² = 0,97), особенно в условиях низкого Delta_sig и низкого количества узлов.

arxiv arXiv cs.CL · 8 д назад

Сжатые модели языковых моделей не справляются с открытым генерированием, несмотря на успешное прохождение тестов на выбор одного из вариантов

Сжатые большие языковые модели часто успешно справляются с тестами на выбор одного из вариантов, но не справляются с генерацией корректных ответов в открытых ответах. Эта "обманная оценка" показывает, что ответы не удаляются, а лишь снижаются по значимости, и появляются только при использовании продвинутых методов генерации, таких как beam search или sampling. Стандартные оценочные тесты переоценивают практическую применимость сжатых моделей, подчеркивая критическую пробел в оценке.

arxiv arXiv cs.CL · 8 д назад

OPD-Evolver: Он-политическая дистилляция для всестороннего эволюционирования агентов

OPD-Evolver представляет рамку медленного и быстрого совместного эволюционирования, которая позволяет агентам выбирать, действовать и повторно использовать опыт через он-политическую самодистилляцию. Он превосходит существующие методы на основе памяти и обучения на 11,5% и 5,8% соответственно, и демонстрирует способность конкурировать с крупномасштабными моделями, такими как Qwen3.5-397B-A17B и Step-3.5-Flash.

arxiv arXiv cs.CL · 9 д назад

Пerturbation запроса для надежной оценки больших языковых моделей

Новая система использует возмущение запроса для выявления и фильтрации структурно несогласованных парных сравнений в оценках больших языковых моделей. Внедрение проверок на согласованность на уровне графа до агрегации ранжирований позволяет снизить циклические предпочтения и повысить надежность ранжирований больших языковых моделей.

arxiv arXiv cs.CL · 9 д назад

SkillMigrator обеспечивает передачу навыков веб-сайтов через совпадение разметки

SkillMigrator обучает повторноиспользуемые веб-навыки путем совпадения структур разметки, а не конкретных ссылок на элементы. Он хранит каждый навык как передаваемый паттерн взаимодействия (TIP) с структурной схемой, что позволяет эффективно использовать навыки на разных сайтах. В сравнении с современными методами, он снижает среднее количество действий LLM на 8-10% на WebArena и Mind2Web при достижении одинаковых уровней успеха.

arxiv arXiv cs.CL · 9 д назад

MambaCount: Эффективный текст-ориентированный подсчет объектов

MambaCount вводит пространственно разреженный блок двойственного состояния для обеспечения эффективного текст-ориентированного подсчета объектов в открытой лексике. Оно решает ограничения касательно причинной модели и высокую энтропию в ответах на пространственные токены, достигая лучших результатов на FSC-147 с тестовой ошибкой MAE 12.23, при этом сохраняя линейную сложность.

arxiv arXiv cs.CL · 9 д назад

EnvRL: Использование динамики среды в агентном обучении с помощью вознаграждений

EnvRL представляет рамку, которая улучшает агентное обучение с вознаграждением за счет включения динамики среды через прогнозирование состояния и обратные динамические цели. Оно обеспечивает значительное увеличение показателей успеха на задачах с длинными горизонтами, улучшая производительность Qwen-2.5-1.5B-Instruct с 72,8% до 77,4% на ALFWorld и с 56,8% до 67,0% на WebShop при обучении с использованием GRPO.

arxiv arXiv cs.CL · 9 д назад

Обучение LLM для среды обучения RL с многомодульным рассуждением

Фреймворк LLM-как-инженер-среды использует LLM для автоматического перестройки сред обучения в области робастного обучения, анализируя траектории неудач и контекстуальные данные. На тестовой платформе MAPF-FrozenLake он превосходит более крупные проприетарные LLM и базовые статичные среды, при этом Qwen3-4B достигает наилучшей общей производительности. Анализ показывает, что доказательства неудач и сохранённые рабочие конфигурации являются ключевыми, и текущий чекпоинт RL показывает лучшую производительность, чем базовая модель как инженер среды.

arxiv arXiv cs.CL · 9 д назад

SwiftTrans повышает эффективность перевода кода на основе ЛЛМ

SwiftTrans решает проблемы эффективности во время выполнения в переводе кода на основе ЛЛМ, вводя Multi-Perspective Exploration и Difference-Aware Selection. Фреймворк расширяет CodeNet, F2SBench и вводит SwiftBench для оценки производительности во время выполнения, демонстрируя стабильное улучшение как по правильности, так и по эффективности на различных тестовых наборах.

arxiv arXiv cs.CL · 9 д назад

SuCo: адаптивное обоснованное рассуждение, основанное на достаточности

SuCo вводит минимально достаточное рассуждение (MSC) как самое короткое начало рассуждения, достаточное для получения правильного ответа. Оно использует двухэтапную систему обучения — настройку MSC и оптимизацию политики с учетом достаточности — для сокращения длины рассуждения при сохранении или улучшении точности на задачах по математике, программированию и науке.

arxiv arXiv cs.CL · 9 д назад

LLMs определяют культурный контекст, но не применяют его

LLMs могут обнаруживать культурные сигналы и запоминать культурные нормы, но часто не адаптируют ответы в соответствии с ними. Их ответы остаются склонными к их родной культуре, если не явно запрашиваются последовательные действия по применению культурного контекста.

arxiv arXiv cs.CL · 9 д назад

Модели визуально-языковых систем не всегда требуют изображений для точности рентгеновского снимка грудной клетки

Каузальный аудит показывает, что текстовые модели без изображений достигают такой же точности, как и мультимодальные модели, при рентгеновском исследовании грудной клетки. В девяти системах текстовая модель показывает отклонение не более чем на 5,7 пунктов от лучшей мультимодальной модели, и модель на 119 миллиардов параметров неотличима от базовой текстовой модели на 7 миллиардов параметров. Оценка фундаментальности, а не точности, должна определять клиническое внедрение.

arxiv arXiv cs.CL · 9 д назад

EComAgentBench: Оценка агентов покупок с скрытой целью

EComAgentBench представляет бенчмарк из 662 реальных задач Amazon, распределяющих требования покупателя по запросу, профилю и уточнению. Агенты должны выявить скрытую цель, проверить кандидатов с помощью доказательств и принять решение о продукте в течение 100 вызовов инструментов, при этом типовые критерии отражают неудачи по конкретным источникам требований. Оценка показывает, что даже самые лучшие модели достигают лишь 57,1% точности, и удовлетворенность критериями падает, когда цель скрыта.

arxiv arXiv cs.CL · 9 д назад

Авторские аватары на основе ИИ обеспечивают реалистичную подготовку к психотерапевтическим занятиям по методу АКТ

Система, использующая ИИ для имитации виртуальных пациентов, предоставляет пошаговую обратную связь по практикам метода Acceptance and Commitment Therapy. GPT-4o-mini достиг наименьшей средней абсолютной ошибки при сопоставлении оценок человеческих наставников, что свидетельствует о высоком согласии по показателю соответствия методу АКТ. Инструмент поддерживает практику терапевтов через реалистичные, низко-рисковые взаимодействия и немедленную обратную связь.

arxiv arXiv cs.CL · 9 д назад

Антипарадокс Слопа: переписка ИИ снижает клиническую неопределенность и межмодальную синхронизацию

Отчеты по рентгенологическим исследованиям, переписанные ИИ, показывают значительную потерю информации, при этом сжатие в электронных медицинских записях уничтожает 51,4% клинических сущностей и 43,7% градиентного языка. Несмотря на сохранение синхронизации между изображением и текстом, стандартизированные и учебные задачи снижают межмодальную синхронизацию на 14,9–16,5%, что в шесть-семь раз превышает потерю при сжатии в электронных медицинских записях. Исследование не выявляет предпочтительной деградации редких патологий и определяет тип задачи переписки как ключевой фактор деградации, а не содержание клинической информации.

arxiv arXiv cs.CL · 9 д назад

DIFE проверяет проникновение бэкдора в CLIP на разных интерфейсах развертывания

DIFE оценивает проникновение бэкдора в контрольных точках CLIP на различных интерфейсах развертывания, показывая, что успешная работа в нативной среде не гарантирует безопасность при повторном использовании. Фреймворк демонстрирует, что заражение текстовой стороны позволяет создавать атакующие воздействия в задачах поиска, переранжирования и выбора, в то время как использование только визуальных данных остается в значительной степени не затронутым. Вводится BadTextTower для генерации сильного текстового воздействия без ущерба для визуальной производительности.

arxiv arXiv cs.CL · 9 д назад

Самообучаемые модели речи не учитывают компенсацию тонального контекста

Модель wav2vec2.0 не показывает никаких признаков перцептивной компенсации мандаринских тонов в сходствах встраиваемых векторов. Классификаторы, используемые для исследования, показывают ограниченную компенсацию и не достигают уровня человеческой производительности при изоляции слогов, что указывает на необходимость надзора при обучении для абстракции фонологической регулярности.