Reasoning models
arxiv arXiv cs.CL · 2 д назад

Адаптивное планирование данных улучшает обучение на основе реверсии для больших языковых моделей

Адаптивное планирование данных (ADS) вводит двууровневую систему планирования данных, которая заменяет равномерное выборку на адаптивное распределение по семантическим кластерам и выборку образцов на границах политики. Экспериментальные результаты показывают, что ADS улучшает среднюю точность на 5,2% по сравнению с GRPO при трех больших языковых моделях и семи задачах логического мышления, что демонстрирует его эффективность как универсальной стратегии для постобучения больших языковых моделей на основе реверсии.

arxiv arXiv cs.CL · 2 д назад

Приложение Curiosity как лингвистическое вмешательство в обучение с помощью ЛЛМ

CURIOBOT использует коллективные переменные Берльне для создания лингвистических вмешательств, направленных на пробуждение любопытства, в диалогах по обучению. В ходе 270 диалогов такие вмешательства увеличили исследовательские поведения вплоть до 2,4 раза в диалоговых оборотах при фиксированных временных пределах, при этом рост сохраняется, несмотря на неизменную качество инструкций преподавателя.

arxiv arXiv cs.CL · 2 д назад

ORBIT: Обучение-бесплатное управление многими атрибутами поведения

ORBIT обеспечивает обучение-бесплатное одновременное управление несколькими атрибутами поведения с использованием ортогонального вращения подпространства. Оно достигает сбалансированного и согласованного управления атрибутами без переподготовки, превосходя существующие базовые решения на тестах TraitFactory и ToneBank.

arxiv arXiv cs.CL · 2 д назад

Классификация концептуальной синхронизации в диалогах человека-робота

В статье предлагается классификация, ориентированная на дизайн, для концептуальной синхронизации в диалогах человека-робота, которая определяется как двусторонний, совместно-конструируемый процесс. Вводится схема диалоговых действий для описания взаимодействующих движений, обеспечивающих синхронизацию, предлагая структурированную рамку для анализа и проектирования таких взаимодействий.

arxiv arXiv cs.CL · 2 д назад

Первые токены в трансформерах: механические корни идентичности языка

LIHA выявляет небольшое количество голов первых токенов в GPT-2, которые постоянно обращаются к первому токену запроса, вызывая переключение языка. Обучение по инструкциям переориентирует эти схемы, концентрируя идентичность языка на ранних слоях, как это показано в контролируемом сравнении моделей Qwen2.5-1.5B-Base и Qwen2-1.5B-Instruct. Первое токенное распространение является специфичным для сценариев, с непереводимыми языками, обрабатываемыми на слое 0, что соответствует паттерну инструкционно обученной модели.

arxiv arXiv cs.CL · 2 д назад

Кадр P4IR повышает точность соблюдения кода на основе больших языковых моделей

P4IR, двухэтапная система, использует обучение с учителем и групповую относительную оптимизацию политик для улучшения систем автоматического соблюдения кода на основе больших языковых моделей. Она снижает расстояние редактирования дерева и расстояние Левенштейна на уровне токенов до 23,8% и 38,6% соответственно, превосходя ведущие языковые модели, такие как Claude Opus, GPT-5.2 и GLM-4.7, в условиях нуля-шота и с использованием небольшого количества примеров, и снижает количество ложноположительных результатов на статистически значимом уровне.

arxiv arXiv cs.CL · 2 д назад

Закрепление знаний в графе помогает LLM только при ответах на вопросы, основанные на фактах, не входящих в обучающий набор

Исследование показало, что закрепление знаний в графе улучшает LLM только при ответах на вопросы, основанные на фактах, не входящих в обучающий набор. На публичных биомедицинских знаниях закрепление не приносит пользы, но на новых или приватных данных оно повышает точность с уровня случайности до почти идеальных значений, что подтверждает, что LLM используют внешние данные за пределами обучения для достижения реальных улучшений.

arxiv arXiv cs.CL · 2 д назад

LLMs используют логику разности для изучения причинной структуры

Большие языковые модели учатся причинной структуре через логику разности в процессе обучения, определяя, какие последовательности слов влияют на другие. Этот подход соответствует экспериментальному методу, используя вариацию в тексте для выявления причинных связей, и подтверждается анализами токен-вложений и механизмов самовнимания.

arxiv arXiv cs.CL · 2 д назад

Разнообразие персонажей в историях, сгенерированных LLM

Этуд сравнивает персонажей в историях, сгенерированных LLM и написанных людьми, с использованием нарратологических параметров. В исследовании установлено, что хотя LLM генерируют персонажей с похожими основными характеристиками, они не обладают разнообразием в сложных характеристиках персонажей, таких как целостность и стилизация. Анализ показывает, что LLM генерируют истории с ограниченным разнообразием персонажей по сравнению с историями, написанными людьми.

arxiv arXiv cs.CL · 2 д назад

Модели речи-текста латентно транскрибируют речь в промежуточных слоях

Модели речи-текста, встроенные в друг друга, проходят скрытую фазу транскрипции, при которой речевые слова превращаются в разделяемые текстовые токены в промежуточных слоях, несмотря на отсутствие обучения по распознаванию речи. До 77% данных показывают, что речевое слово появляется как наиболее вероятный текстовый предсказываемый вариант, за которым следует продолжение текста и возврат к речи. Такое поведение обусловлено встраиванием данных и инициализацией текстовых моделей, что коррелирует с показателями знаний о речи.

arxiv arXiv cs.CL · 2 д назад

FACTOR обеспечивает адаптивную проверку фактичности в генерации длинных текстов

FACTOR вводит адаптивную проверку фактичности при генерации длинных текстов, изменяя критерии проверки в зависимости от неопределённости утверждений на уровне утверждений. Благодаря оценке неопределённости, инференции на языке и переранжированию кандидатов, FACTOR улучшает фактичность и снижает стоимость проверки, при этом результаты показывают сильную производительность при работе с разнообразными моделями.

media Hugging Face Forums · 2 д назад

Система Buddy: монитор нестабильности на языке Rust с контролем неопределенности на основе NER для многоуровневой инференции LLM

Система Buddy использует монитор нестабильности на языке Rust для обнаружения неопределенности на уровне каждого токена при локальной инференции Gemma 3 4B, направляя только неопределенные токены в Sonnet через NER-ограниченную извлечение спанов и семантическое извлечение. Результаты тестирования показывают, что она достигает точности 71,4% при стоимости $0,21, превосходя паттерн Anthropic Advisor (62,9% при стоимости $0,44) на семи наборах данных Hugging Face, с ключевым улучшением на SQuAD v2 за счет направления фрагментов исходного текста в облачную модель.

arxiv arXiv cs.CL · 2 д назад

VADAOrchestra: нейросимволическая оркестрация адаптивных рабочих потоков

VADAOrchestra представляет нейросимволическую архитектуру, сочетающую оркестрацию потоков на основе больших языковых моделей и синтаксическую логическую инференцию Datalog+/- . Она обеспечивает адаптивное и объяснимое принятие решений за счёт пошагового планирования потоков и выполнения логических инференций по запросу, обеспечивая аудитируемость, масштабируемость и проверяемость в реальных финансовых сценариях.

arxiv arXiv cs.CL · 2 д назад

Вариантно-калиброванная модуляция для декодирования ЛЛМ

VCM решает проблему вероятностного ловушка в декодировании больших языковых моделей, вводя динамические механизмы для перестройки распределений вероятностей. Он повышает разнообразие, согласованность и точность рассуждений в открытой генерации, в вопросах фактического знания и математическом мышлении с минимальными вычислительными затратами.

arxiv arXiv cs.CL · 2 д назад

Gazer: обучение-безопасная коррекция семантики для автобуровых визуальных моделей

Gazer представляет рамку без обучения, которая использует обратную связь крупных моделей языка с несколькими модальностями для исправления семантических ошибок в реальном времени во время генерации автобуровыми визуальными моделями. Интегрируя стадии отражательной диагностики и семантической коррекции, Gazer повышает составную точность и семантическую синхронизацию между несколькими моделями без дополнительного обучения.

arxiv arXiv cs.CL · 2 д назад

Мультимодальный цепочка мыслей: Возможности и ограничения

Мультимодальная цепочка мыслей улучшает производительность в математических и научных рассуждениях, но ухудшает визуальную опору и подсчет объектов в задачах восприятия. Модели демонстрируют паттерн «Смотрим мало, думаем много», при котором визуальное отражение уменьшается, а вербальное отражение увеличивается, что указывает на постоянный барьер в визуальном мышлении.

arxiv arXiv cs.CL · 2 д назад

Ключевые факторы в RL для логического мышления в LLM раскрыты

Теоретический анализ показывает, что степень off-policy, определяемая количеством градиентных шагов на одну сессию, значительно влияет на коэффициенты важности и доминирование обновления токенов. В исследовании представлено адаптивное обобщение политики оптимизации (ACPO), которое корректирует границы обрезки по вариации групп токенов, превосходя DAPO и CISPO на моделях 3B и 7B по математическим, вопросам-ответам и логическим задачам.

arxiv arXiv cs.CL · 2 д назад

Контекстуально-осознанное дистилляция и аблация для Text2DSL

Новая система Text2DSL использует контекстуально-осознанную дистилляцию с структурированным контекстом, состоящим из синтаксиса BNF, спецификации API и закрытого словаря идентификаторов. Результаты аблации показывают, что словарь оказывает наибольшее влияние на семантическое качество, в то время как API и BNF значительно улучшают структурную корректность, что подтверждает структурированный контекст как критический, а не поверхностный, компонент.

arxiv arXiv cs.CL · 2 д назад

Малые языковые модели превосходят передовые LLM в извлечении связей

Малая языковая модель с 300 миллионами параметров, прошедшая тонкую настройку на данные общего сегмента, достигает 0,83 микроФ1 в извлечении связей на общем сегменте, превосходя нулевую версию GPT-5.4 и Claude Sonnet 4.6. На литературных тестах модель достигает 0,92 на наборе биографических данных, превосходя GPT-5.4 и превосходя средние результаты передовых моделей. Эти результаты демонстрируют, что задача-адаптированные малые модели могут обеспечивать точные, приватные и эффективные по аппаратному обеспечению результаты без использования масштабных генеративных моделей.

arxiv arXiv cs.CL · 2 д назад

PeerCheck: Улучшение академических отзывов, генерируемых ЛЛМ

PeerCheck анализирует различия между отзывами ЛЛМ и людьми, и находит, что ЛЛМ фокусируются на теории, в то время как люди приоритизируют методологию и эксперименты. Фреймворк использует инженерные подходы к запросам, такие как Chain-of-Thought и генерация с использованием ретриевирования, при этом Chain-of-Thought значительно улучшает качество отзывов, хотя RAG вводит неожиданный «парадокс», который иногда снижает качество.