Reasoning models
arxiv arXiv cs.CL · 9 д назад

Визуальные данные лгут, согласованность говорит: разъединение пространственной внимательности от надежности в визуально-языковых моделях

Исследование подвергает сомнению предположение о том, что визуальные сигналы внимания отражают надежность в визуально-языковых моделях. Оно показывает почти нулевую корреляцию между пространственной внимательностью и точностью, демонстрируя, что согласованность по всем путям рассуждения является более сильным предиктором истины. Надежность лучше объясняется динамикой генерации и распределения внутренних состояний, а не визуальными паттернами внимания.

arxiv arXiv cs.CL · 9 д назад

NarrativeWorldBench и N-VSSM для длительных аудиодраматических сценариев

NarrativeWorldBench оценивает 21 LLM по девяти метрикам структуры сюжета на горизонтах от 10 до 200 эпизодов, с поддержкой межязыковых вариантов на хинди, тамильском, телугу и маратхи. N-VSSM, скрытая модель мира, использующая Mamba-2, достигает значения F1 по сюжетным точкам не менее 0,84 на всех горизонтах при вычислительной нагрузке в четыре раза ниже, чем у моделей с закрытым фронтом, и превосходит Claude Opus 4.5 по долгосрочной последовательности и управляемости в исследовании профессионального писателя.

arxiv arXiv cs.CL · 9 д назад

MODE-RAG: Оценка и сокращение халлюцинаций в M-RAG

MODE-RAG предлагает многоконтрольную систему, использующую вариационную свободную энергию для динамического управления вмешательствами и снижения халлюцинаций между модальностями в системах расширенного генерирования на основе извлечения. Система интегрирует поиск дерева Монте-Карло и возмущения логитов для решения проблем причинных фальшивок и сycопхантичности, при этом специализированные агенты обеспечивают проверку фактической достоверности и стабильность форматирования. Оценка осуществляется с помощью ModeVent, подмножества MultiVent, что позволяет системе значительно повысить устойчивость к логическим фальшивкам.

arxiv arXiv cs.CL · 9 д назад

AIPatient Arena: оценка LLM в клинических рабочих процессах на основе данных ЭРВ

AIPatient Arena оценивает большие языковые модели в полных клинических консультациях с использованием пациентспецифических знаний, основанных на ЭРВ. Он оценивает LLM по восьми клинических компетенциям, выявляя сильную производительность в навыках интервью, этике и ясности объяснений, но устойчивые слабости в обработке неопределённости, охвате информации и диагностическом мышлении, а также процессы сбоев, такие как повторяющиеся вопросы и пропуск истории.

arxiv arXiv cs.CL · 9 д назад

STATEWITNESS: Объяснитель активации для аудита лжи в LLMs

STATEWITNESS представляет объяснитель активации, который аудит ложь в логических LLMs, читая скрытые состояния и генерируя ответы на естественном языке или структурированные отчёты. Он достигает среднего AUROC в 0,916, превосходя существующие чёрные коробки мониторов и объяснители активации на 11,6% и 25,0% соответственно, и предоставляет отслеживание на уровне запроса, схемы и доказательств для проверки человеком.

arxiv arXiv cs.CL · 9 д назад

Второй порядок смещения в LLM: оценка смещения на основе суждений

Новое исследование выявляет второе порядок смещения в больших языковых моделях — социальное смещение в их оценках содержания смещенного. Используя эпистемологию привилегии, исследование разрабатывает задачу логического мышления для оценки того, принимают ли LLM смещённые тексты на основе демографических характеристик, выявляя скрытые смещения, которые варьируются в зависимости от целевой группы и ускользают от механизмов безопасности. Работа вводит два метрики для количественного измерения этих смещений и призывает к более теоретически обоснованным методам оценки в области NLP.

arxiv arXiv cs.CL · 9 д назад

LLMs превосходят людей по предсказанию следующего говорящего

Большие языковые модели превосходили людей и модели супервизионного обучения при предсказании следующего говорящего с использованием корпуса AMI, несмотря на отсутствие аудиовизуальных данных и доменной подготовки. Мультимодальные LLMs превосходили текстовые LLMs по обнаружению адресата и изменениях в диалоге, но все еще не достигали уровня человеческой производительности, подчеркивая трудности в использовании исходных аудиовизуальных сигналов. Исследования с устранением компонентов показывают, что контекст диалога является критически важным, особенно для предсказания следующего говорящего, при этом как люди, так и LLMs испытывают трудности при частых изменениях ритма диалога.

arxiv arXiv cs.CL · 9 д назад

Анализ выразительности иерархических моделей в глубоких трансформерах

В этой статье проводится анализ выразительности глубоких трансформеров с использованием ограниченных грамматик. Авторы строят трансформеры с позиционным вниманием, при котором глубина модели растет линейно с глубиной грамматики, а количество нейронов растет квадратично с числом правил вывода. Результаты подтверждают гипотезу о линейной представимости, показывая, что такие модели могут кодировать абстрактные грамматические состояния в низкодименсиональных линейно разделимых подпространствах.

arxiv arXiv cs.CL · 9 д назад

Функции LLM могут навредить GNN через интерференцию при конкатенации

Конкатенация функций, сгенерированных LLM, к графовым нейронным сетям систематически снижает точность на тестах с гомофильными данными, при этом точность PubMed снижается на -17,0 ± 0,3 pp. Эта деградация связана с дискриминативностью LLM в отдельности (Delta_sig), которая коррелирует сильно с затратами на конкатенацию (r² = 0,38) и демонстрирует степенную зависимость от размера признаков и количества узлов (r² = 0,97), особенно в условиях низкого Delta_sig и низкого количества узлов.

arxiv arXiv cs.CL · 9 д назад

Сжатые модели языковых моделей не справляются с открытым генерированием, несмотря на успешное прохождение тестов на выбор одного из вариантов

Сжатые большие языковые модели часто успешно справляются с тестами на выбор одного из вариантов, но не справляются с генерацией корректных ответов в открытых ответах. Эта "обманная оценка" показывает, что ответы не удаляются, а лишь снижаются по значимости, и появляются только при использовании продвинутых методов генерации, таких как beam search или sampling. Стандартные оценочные тесты переоценивают практическую применимость сжатых моделей, подчеркивая критическую пробел в оценке.

arxiv arXiv cs.CL · 9 д назад

OPD-Evolver: Он-политическая дистилляция для всестороннего эволюционирования агентов

OPD-Evolver представляет рамку медленного и быстрого совместного эволюционирования, которая позволяет агентам выбирать, действовать и повторно использовать опыт через он-политическую самодистилляцию. Он превосходит существующие методы на основе памяти и обучения на 11,5% и 5,8% соответственно, и демонстрирует способность конкурировать с крупномасштабными моделями, такими как Qwen3.5-397B-A17B и Step-3.5-Flash.

arxiv arXiv cs.CL · 9 д назад

Пerturbation запроса для надежной оценки больших языковых моделей

Новая система использует возмущение запроса для выявления и фильтрации структурно несогласованных парных сравнений в оценках больших языковых моделей. Внедрение проверок на согласованность на уровне графа до агрегации ранжирований позволяет снизить циклические предпочтения и повысить надежность ранжирований больших языковых моделей.

arxiv arXiv cs.CL · 9 д назад

SkillMigrator обеспечивает передачу навыков веб-сайтов через совпадение разметки

SkillMigrator обучает повторноиспользуемые веб-навыки путем совпадения структур разметки, а не конкретных ссылок на элементы. Он хранит каждый навык как передаваемый паттерн взаимодействия (TIP) с структурной схемой, что позволяет эффективно использовать навыки на разных сайтах. В сравнении с современными методами, он снижает среднее количество действий LLM на 8-10% на WebArena и Mind2Web при достижении одинаковых уровней успеха.

arxiv arXiv cs.CL · 9 д назад

MambaCount: Эффективный текст-ориентированный подсчет объектов

MambaCount вводит пространственно разреженный блок двойственного состояния для обеспечения эффективного текст-ориентированного подсчета объектов в открытой лексике. Оно решает ограничения касательно причинной модели и высокую энтропию в ответах на пространственные токены, достигая лучших результатов на FSC-147 с тестовой ошибкой MAE 12.23, при этом сохраняя линейную сложность.

arxiv arXiv cs.CL · 9 д назад

EnvRL: Использование динамики среды в агентном обучении с помощью вознаграждений

EnvRL представляет рамку, которая улучшает агентное обучение с вознаграждением за счет включения динамики среды через прогнозирование состояния и обратные динамические цели. Оно обеспечивает значительное увеличение показателей успеха на задачах с длинными горизонтами, улучшая производительность Qwen-2.5-1.5B-Instruct с 72,8% до 77,4% на ALFWorld и с 56,8% до 67,0% на WebShop при обучении с использованием GRPO.

arxiv arXiv cs.CL · 9 д назад

Обучение LLM для среды обучения RL с многомодульным рассуждением

Фреймворк LLM-как-инженер-среды использует LLM для автоматического перестройки сред обучения в области робастного обучения, анализируя траектории неудач и контекстуальные данные. На тестовой платформе MAPF-FrozenLake он превосходит более крупные проприетарные LLM и базовые статичные среды, при этом Qwen3-4B достигает наилучшей общей производительности. Анализ показывает, что доказательства неудач и сохранённые рабочие конфигурации являются ключевыми, и текущий чекпоинт RL показывает лучшую производительность, чем базовая модель как инженер среды.

arxiv arXiv cs.CL · 9 д назад

SwiftTrans повышает эффективность перевода кода на основе ЛЛМ

SwiftTrans решает проблемы эффективности во время выполнения в переводе кода на основе ЛЛМ, вводя Multi-Perspective Exploration и Difference-Aware Selection. Фреймворк расширяет CodeNet, F2SBench и вводит SwiftBench для оценки производительности во время выполнения, демонстрируя стабильное улучшение как по правильности, так и по эффективности на различных тестовых наборах.

arxiv arXiv cs.CL · 9 д назад

SuCo: адаптивное обоснованное рассуждение, основанное на достаточности

SuCo вводит минимально достаточное рассуждение (MSC) как самое короткое начало рассуждения, достаточное для получения правильного ответа. Оно использует двухэтапную систему обучения — настройку MSC и оптимизацию политики с учетом достаточности — для сокращения длины рассуждения при сохранении или улучшении точности на задачах по математике, программированию и науке.

arxiv arXiv cs.CL · 9 д назад

LLMs определяют культурный контекст, но не применяют его

LLMs могут обнаруживать культурные сигналы и запоминать культурные нормы, но часто не адаптируют ответы в соответствии с ними. Их ответы остаются склонными к их родной культуре, если не явно запрашиваются последовательные действия по применению культурного контекста.

arxiv arXiv cs.CL · 9 д назад

Модели визуально-языковых систем не всегда требуют изображений для точности рентгеновского снимка грудной клетки

Каузальный аудит показывает, что текстовые модели без изображений достигают такой же точности, как и мультимодальные модели, при рентгеновском исследовании грудной клетки. В девяти системах текстовая модель показывает отклонение не более чем на 5,7 пунктов от лучшей мультимодальной модели, и модель на 119 миллиардов параметров неотличима от базовой текстовой модели на 7 миллиардов параметров. Оценка фундаментальности, а не точности, должна определять клиническое внедрение.