Reasoning models
arxiv arXiv cs.CL · 3 д назад

Gazer: обучение-безопасная коррекция семантики для автобуровых визуальных моделей

Gazer представляет рамку без обучения, которая использует обратную связь крупных моделей языка с несколькими модальностями для исправления семантических ошибок в реальном времени во время генерации автобуровыми визуальными моделями. Интегрируя стадии отражательной диагностики и семантической коррекции, Gazer повышает составную точность и семантическую синхронизацию между несколькими моделями без дополнительного обучения.

arxiv arXiv cs.CL · 3 д назад

Мультимодальный цепочка мыслей: Возможности и ограничения

Мультимодальная цепочка мыслей улучшает производительность в математических и научных рассуждениях, но ухудшает визуальную опору и подсчет объектов в задачах восприятия. Модели демонстрируют паттерн «Смотрим мало, думаем много», при котором визуальное отражение уменьшается, а вербальное отражение увеличивается, что указывает на постоянный барьер в визуальном мышлении.

arxiv arXiv cs.CL · 3 д назад

Ключевые факторы в RL для логического мышления в LLM раскрыты

Теоретический анализ показывает, что степень off-policy, определяемая количеством градиентных шагов на одну сессию, значительно влияет на коэффициенты важности и доминирование обновления токенов. В исследовании представлено адаптивное обобщение политики оптимизации (ACPO), которое корректирует границы обрезки по вариации групп токенов, превосходя DAPO и CISPO на моделях 3B и 7B по математическим, вопросам-ответам и логическим задачам.

arxiv arXiv cs.CL · 3 д назад

Контекстуально-осознанное дистилляция и аблация для Text2DSL

Новая система Text2DSL использует контекстуально-осознанную дистилляцию с структурированным контекстом, состоящим из синтаксиса BNF, спецификации API и закрытого словаря идентификаторов. Результаты аблации показывают, что словарь оказывает наибольшее влияние на семантическое качество, в то время как API и BNF значительно улучшают структурную корректность, что подтверждает структурированный контекст как критический, а не поверхностный, компонент.

arxiv arXiv cs.CL · 3 д назад

Малые языковые модели превосходят передовые LLM в извлечении связей

Малая языковая модель с 300 миллионами параметров, прошедшая тонкую настройку на данные общего сегмента, достигает 0,83 микроФ1 в извлечении связей на общем сегменте, превосходя нулевую версию GPT-5.4 и Claude Sonnet 4.6. На литературных тестах модель достигает 0,92 на наборе биографических данных, превосходя GPT-5.4 и превосходя средние результаты передовых моделей. Эти результаты демонстрируют, что задача-адаптированные малые модели могут обеспечивать точные, приватные и эффективные по аппаратному обеспечению результаты без использования масштабных генеративных моделей.

arxiv arXiv cs.CL · 3 д назад

PeerCheck: Улучшение академических отзывов, генерируемых ЛЛМ

PeerCheck анализирует различия между отзывами ЛЛМ и людьми, и находит, что ЛЛМ фокусируются на теории, в то время как люди приоритизируют методологию и эксперименты. Фреймворк использует инженерные подходы к запросам, такие как Chain-of-Thought и генерация с использованием ретриевирования, при этом Chain-of-Thought значительно улучшает качество отзывов, хотя RAG вводит неожиданный «парадокс», который иногда снижает качество.

arxiv arXiv cs.CL · 3 д назад

Деревья сюжетов: иерархические представления для длинных повествований

Деревья сюжетов предоставляют иерархические структуры для длинных повествований, разделяя главы на сцены и выявляя слои повествования через процедуры сверху вниз и снизу вверх. Эти деревья позволяют адаптивное извлечение, улучшая производительность ответов на вопросы на трех бенчмарках длинных контекстов повествований по сравнению с базовыми методами, с подтверждением этих результатов через исследования с отключением компонентов.

arxiv arXiv cs.CL · 3 д назад

Использование внутренних артефактов ЛЛМ для повышения надежности классификации в правовой сфере

Этот исследовательский проект изучает использование внутренних артефактов крупных языковых моделей для обнаружения неправильных предсказаний в задачах правовой классификации. Подход использует признаки из этих артефактов для построения классификаторов, которые выявляют ошибочные выводы в предсказаниях по решению о выдаче ареста и нарушениях закона. Результаты показывают, что внутренние артефакты надежно указывают на неправильные ответы, что повышает общую надежность систем правовой классификации на основе ЛЛМ.

arxiv arXiv cs.CL · 3 д назад

Сравнение на уровне токенов трансформеров и гибридных моделей

Исследование, использующее открытые веса Olmo 3 и Olmo Hybrid, показывает, что гибридные модели превосходят трансформеры по открытым классам слов и открывающим разделителям. Повышение менее стабильно для закрытых классов функциональных слов и закрывающих разделителей, при этом гибридные модели отлично справляются с задачами, связанными со статусом смысла, такими как запоминание местоимений и отслеживание сущностей, в то время как трансформеры лучше справляются с задачами по соответствию скобкам. Эти результаты указывают на то, что рекуррентные слои улучшают предсказания, связанные со статусом, а внимание поддерживает распознавание n-грамм и синтаксических паттернов.

arxiv arXiv cs.CL · 3 д назад

ViGiL3D++ обеспечивает генерацию разнообразных языковых запросов для 3D визуального заземления

ViGiL3D++ представляет масштабируемый, сцен-независимый метод, генерирующий разнообразные визуальные запросы заземления путем комбинирования выбора ограничений в сцен-графах с генерацией языка на основе больших языковых моделей. Модель превосходит существующие модели на нескольких бенчмарках 3D визуального заземления и выявляет ключевые ограничения современных визуально-языковых моделей.

arxiv arXiv cs.CL · 3 д назад

Метод направления на этапе тестирования устраняет конфликты временных фактов в языковых моделях

Исследователи выявили параметрические временные конфликты в языковых моделях, где устаревшие факты сохраняются в параметрах. Они вводят Метод временного притяжения (TAS), подход на этапе тестирования, который устраняет 29-57% таких конфликтов без переобучения, сохраняя точность 85-99% на запросах без конфликтов и превосходя базовую модель на трёх из четырёх моделей.

arxiv arXiv cs.CL · 3 д назад

Игра Metanym: автономный бенчмарк для структурного интеллекта

Игра Metanym представляет бенчмарк для языковых моделей, устойчивый к загрязнению, который оценивает структурный интеллект через динамическое создание аналогий в реальном времени. Сингулярное разложение оценок оценщиков раскрывает как способность к генерации, так и к оценке, при этом точность фактов коррелирует с GPQA Diamond с r = 0,92. Оценка — редкое навык: лучшие генераторы являются средними оценщиками, в то время как лучшие оценщики создают средние результаты, и самые сильные модели занимают места в совете, который сам оценивает и управляет бенчмарком.

arxiv arXiv cs.CL · 3 д назад

LLM сдаются обману чаще, чем люди

Исследование показало, что все 21 оцененных LLM сдаются обманчивым ловушкам на значительно более высоком уровне, чем люди. Несмотря на то, что LLM распознают ловушки в своих рассуждениях, они используют обманчивые элементы 73,4% времени, при отсутствии корреляции между распознаванием и поведением (коэффициент Спирмена r = +0,8, p = 0,73). Эти результаты показывают, что теории обмана, основанные на людях, не применимы к AI-атакам, что требует исследований защиты, адаптированных к ИИ.

arxiv arXiv cs.CL · 3 д назад

Демографические метаданные негативно влияют на оценку эссе на основе DistilBERT

Исследование показало, что конкатенация демографических метаданных с текстом в моделях оценки эссе на основе DistilBERT снижает точность прогноза и увеличивает смещение оценок. Экспериментальная модель достигла более низкого квадратичного взвешенного кэппа (0,656 против 0,727) и более высокой потери валидации (1,29 против 0,25), при этом сопоставимость оценок снизилась с 15 до 12 из 19 тестов.

arxiv arXiv cs.CL · 3 д назад

FiLM-координированный двойной ветвевой трансформатор для моделирования языка

Новая архитектура трансформатора вводит отдельные глобальные и локальные ветви для моделирования языка, используя FiLM для динамической координации этих ветвей. Эксперименты показывают, что она превосходит одноветвевые и ослабленные двойные ветви на малых наборах данных, таких как TinyShakespeare и WikiText-2, с стабильными результатами при различных семенах и паттернах выборочного модуляции.

arxiv arXiv cs.CL · 3 д назад

OTTER: Система красного тестирования для оптимизации промптов, избегающих токсичность

OTTER — это черный ящик, система красного тестирования, которая обходит фильтры токсичности, изменяя не более пяти токенов. Оценка проводилась на 457 промптах AdvBench по четырем моделям GPT, что привело к росту успешности проникновения в систему с 7,0% до 84,0%, что представляет первую количественную аналитику взаимосвязей избегания токсичности и практические рекомендации по укреплению классификаторов.

arxiv arXiv cs.CL · 3 д назад

Фреймворк GRAG разделяет обоснование и персонализацию в разговорных ИИ-моделях

GRAG разделяет обоснование содержания и персонализацию в разговорных моделях, используя универсальные ответы больших языковых моделей как структурную основу. Этот подход позволяет более малым и ресурсоограниченным моделям достигать до 47% улучшения по ROUGE-2 и 36% по BLEU в сравнении с методами, превосходящими текущие стандарты, на различных тестовых наборах.

arxiv arXiv cs.CL · 3 д назад

Валидационно-ограниченный механизм анализа выявления суицидальных состояний в LLMs

Валидационно-ограниченная система оценивает внутренние характеристики LLM только после наблюдения за поведением, выявляя средний слой признака, который причинно вносит вклад в выявление суицидальных состояний. Этот признак является семантическим, низкого ранга, межмодельным и специфичным для суицидальных состояний по сравнению с общими состояниями тревоги, хотя направление его регулирования необходимо, но недостаточно. Паттерн показывает, что меньшие модели кодируют суицидальные состояния, но только более крупные модели реагируют на них, при этом доказательства ограничены английским текстом реддит-форумов.

arxiv arXiv cs.CL · 3 д назад

Характерные внимательные трансформеры для обнаружения многоходовых проникновений

Новая модель с иерархическим вниманием обнаруживает многоходовые проникновения, кодируя ходы в компактные представления и используя лёгкий модуль разговора для отслеживания динамики диалога. На 14 038 диалогах достигается значение F1 равное 0,9394, что превосходит Claude Opus 4.7 на 0,07 и снижает уровень ложноположительных результатов вдвое. Исследования с устранением факторов показывают, что объединение межходового и собственного внимания в модуле разговора снижает количество ложноположительных результатов на 2,26 процентных пункта.

arxiv arXiv cs.CL · 3 д назад

Оценка на основе ЛЛМ для аннотаций разбиения фраз

LMRE решает ограничения однореферентной оценки, моделируя несколько допустимых формулировок речи. Оно превосходит традиционные методы по сопоставлению с человеческими оценками по приемлемости и оценке, демонстрируя масштабируемость и устойчивость для аннотаций корейского языка.