Reasoning models
arxiv arXiv cs.CL · 2 д назад

Малые языковые модели превосходят передовые LLM в извлечении связей

Малая языковая модель с 300 миллионами параметров, прошедшая тонкую настройку на данные общего сегмента, достигает 0,83 микроФ1 в извлечении связей на общем сегменте, превосходя нулевую версию GPT-5.4 и Claude Sonnet 4.6. На литературных тестах модель достигает 0,92 на наборе биографических данных, превосходя GPT-5.4 и превосходя средние результаты передовых моделей. Эти результаты демонстрируют, что задача-адаптированные малые модели могут обеспечивать точные, приватные и эффективные по аппаратному обеспечению результаты без использования масштабных генеративных моделей.

arxiv arXiv cs.CL · 2 д назад

PeerCheck: Улучшение академических отзывов, генерируемых ЛЛМ

PeerCheck анализирует различия между отзывами ЛЛМ и людьми, и находит, что ЛЛМ фокусируются на теории, в то время как люди приоритизируют методологию и эксперименты. Фреймворк использует инженерные подходы к запросам, такие как Chain-of-Thought и генерация с использованием ретриевирования, при этом Chain-of-Thought значительно улучшает качество отзывов, хотя RAG вводит неожиданный «парадокс», который иногда снижает качество.

arxiv arXiv cs.CL · 2 д назад

Деревья сюжетов: иерархические представления для длинных повествований

Деревья сюжетов предоставляют иерархические структуры для длинных повествований, разделяя главы на сцены и выявляя слои повествования через процедуры сверху вниз и снизу вверх. Эти деревья позволяют адаптивное извлечение, улучшая производительность ответов на вопросы на трех бенчмарках длинных контекстов повествований по сравнению с базовыми методами, с подтверждением этих результатов через исследования с отключением компонентов.

arxiv arXiv cs.CL · 2 д назад

Использование внутренних артефактов ЛЛМ для повышения надежности классификации в правовой сфере

Этот исследовательский проект изучает использование внутренних артефактов крупных языковых моделей для обнаружения неправильных предсказаний в задачах правовой классификации. Подход использует признаки из этих артефактов для построения классификаторов, которые выявляют ошибочные выводы в предсказаниях по решению о выдаче ареста и нарушениях закона. Результаты показывают, что внутренние артефакты надежно указывают на неправильные ответы, что повышает общую надежность систем правовой классификации на основе ЛЛМ.

arxiv arXiv cs.CL · 2 д назад

Сравнение на уровне токенов трансформеров и гибридных моделей

Исследование, использующее открытые веса Olmo 3 и Olmo Hybrid, показывает, что гибридные модели превосходят трансформеры по открытым классам слов и открывающим разделителям. Повышение менее стабильно для закрытых классов функциональных слов и закрывающих разделителей, при этом гибридные модели отлично справляются с задачами, связанными со статусом смысла, такими как запоминание местоимений и отслеживание сущностей, в то время как трансформеры лучше справляются с задачами по соответствию скобкам. Эти результаты указывают на то, что рекуррентные слои улучшают предсказания, связанные со статусом, а внимание поддерживает распознавание n-грамм и синтаксических паттернов.

arxiv arXiv cs.CL · 2 д назад

ViGiL3D++ обеспечивает генерацию разнообразных языковых запросов для 3D визуального заземления

ViGiL3D++ представляет масштабируемый, сцен-независимый метод, генерирующий разнообразные визуальные запросы заземления путем комбинирования выбора ограничений в сцен-графах с генерацией языка на основе больших языковых моделей. Модель превосходит существующие модели на нескольких бенчмарках 3D визуального заземления и выявляет ключевые ограничения современных визуально-языковых моделей.

arxiv arXiv cs.CL · 2 д назад

Метод направления на этапе тестирования устраняет конфликты временных фактов в языковых моделях

Исследователи выявили параметрические временные конфликты в языковых моделях, где устаревшие факты сохраняются в параметрах. Они вводят Метод временного притяжения (TAS), подход на этапе тестирования, который устраняет 29-57% таких конфликтов без переобучения, сохраняя точность 85-99% на запросах без конфликтов и превосходя базовую модель на трёх из четырёх моделей.

arxiv arXiv cs.CL · 2 д назад

Игра Metanym: автономный бенчмарк для структурного интеллекта

Игра Metanym представляет бенчмарк для языковых моделей, устойчивый к загрязнению, который оценивает структурный интеллект через динамическое создание аналогий в реальном времени. Сингулярное разложение оценок оценщиков раскрывает как способность к генерации, так и к оценке, при этом точность фактов коррелирует с GPQA Diamond с r = 0,92. Оценка — редкое навык: лучшие генераторы являются средними оценщиками, в то время как лучшие оценщики создают средние результаты, и самые сильные модели занимают места в совете, который сам оценивает и управляет бенчмарком.

arxiv arXiv cs.CL · 2 д назад

LLM сдаются обману чаще, чем люди

Исследование показало, что все 21 оцененных LLM сдаются обманчивым ловушкам на значительно более высоком уровне, чем люди. Несмотря на то, что LLM распознают ловушки в своих рассуждениях, они используют обманчивые элементы 73,4% времени, при отсутствии корреляции между распознаванием и поведением (коэффициент Спирмена r = +0,8, p = 0,73). Эти результаты показывают, что теории обмана, основанные на людях, не применимы к AI-атакам, что требует исследований защиты, адаптированных к ИИ.

arxiv arXiv cs.CL · 2 д назад

Демографические метаданные негативно влияют на оценку эссе на основе DistilBERT

Исследование показало, что конкатенация демографических метаданных с текстом в моделях оценки эссе на основе DistilBERT снижает точность прогноза и увеличивает смещение оценок. Экспериментальная модель достигла более низкого квадратичного взвешенного кэппа (0,656 против 0,727) и более высокой потери валидации (1,29 против 0,25), при этом сопоставимость оценок снизилась с 15 до 12 из 19 тестов.

arxiv arXiv cs.CL · 2 д назад

FiLM-координированный двойной ветвевой трансформатор для моделирования языка

Новая архитектура трансформатора вводит отдельные глобальные и локальные ветви для моделирования языка, используя FiLM для динамической координации этих ветвей. Эксперименты показывают, что она превосходит одноветвевые и ослабленные двойные ветви на малых наборах данных, таких как TinyShakespeare и WikiText-2, с стабильными результатами при различных семенах и паттернах выборочного модуляции.

arxiv arXiv cs.CL · 2 д назад

OTTER: Система красного тестирования для оптимизации промптов, избегающих токсичность

OTTER — это черный ящик, система красного тестирования, которая обходит фильтры токсичности, изменяя не более пяти токенов. Оценка проводилась на 457 промптах AdvBench по четырем моделям GPT, что привело к росту успешности проникновения в систему с 7,0% до 84,0%, что представляет первую количественную аналитику взаимосвязей избегания токсичности и практические рекомендации по укреплению классификаторов.

arxiv arXiv cs.CL · 2 д назад

Фреймворк GRAG разделяет обоснование и персонализацию в разговорных ИИ-моделях

GRAG разделяет обоснование содержания и персонализацию в разговорных моделях, используя универсальные ответы больших языковых моделей как структурную основу. Этот подход позволяет более малым и ресурсоограниченным моделям достигать до 47% улучшения по ROUGE-2 и 36% по BLEU в сравнении с методами, превосходящими текущие стандарты, на различных тестовых наборах.

arxiv arXiv cs.CL · 2 д назад

Валидационно-ограниченный механизм анализа выявления суицидальных состояний в LLMs

Валидационно-ограниченная система оценивает внутренние характеристики LLM только после наблюдения за поведением, выявляя средний слой признака, который причинно вносит вклад в выявление суицидальных состояний. Этот признак является семантическим, низкого ранга, межмодельным и специфичным для суицидальных состояний по сравнению с общими состояниями тревоги, хотя направление его регулирования необходимо, но недостаточно. Паттерн показывает, что меньшие модели кодируют суицидальные состояния, но только более крупные модели реагируют на них, при этом доказательства ограничены английским текстом реддит-форумов.

arxiv arXiv cs.CL · 2 д назад

Характерные внимательные трансформеры для обнаружения многоходовых проникновений

Новая модель с иерархическим вниманием обнаруживает многоходовые проникновения, кодируя ходы в компактные представления и используя лёгкий модуль разговора для отслеживания динамики диалога. На 14 038 диалогах достигается значение F1 равное 0,9394, что превосходит Claude Opus 4.7 на 0,07 и снижает уровень ложноположительных результатов вдвое. Исследования с устранением факторов показывают, что объединение межходового и собственного внимания в модуле разговора снижает количество ложноположительных результатов на 2,26 процентных пункта.

arxiv arXiv cs.CL · 2 д назад

Оценка на основе ЛЛМ для аннотаций разбиения фраз

LMRE решает ограничения однореферентной оценки, моделируя несколько допустимых формулировок речи. Оно превосходит традиционные методы по сопоставлению с человеческими оценками по приемлемости и оценке, демонстрируя масштабируемость и устойчивость для аннотаций корейского языка.

arxiv arXiv cs.CL · 2 д назад

Ответная инженерия: локальное редактирование траектории для принятия решений с учетом протокола

Ответная инженерия вводит слой в режиме работы, который применяет локальные правила коррекции к траектории рассуждений модели во время генерации, без переобучения. В клиническом тесте на острое неврологическое нарушение слуха она повысила долю соответствующих протоколу результатов с 54,5% до 83,5% и соответствие проводящим случаям с 1,6% до 58,9%.

arxiv arXiv cs.CL · 2 д назад

Ошибочные иллюзии в голландских LLMs

Модели на голландском языке демонстрируют иллюзии целостности, аналогичные человеческим читателям. Метрики неожиданности и энтропии внимания показывают, что модели подвергаются обману со стороны контекстных совпадений, при этом энергия ассоциативной памяти выявляет механизмы дискурсной целостности.

arxiv arXiv cs.CL · 2 д назад

Многоагентная система аудита для клинического психического здоровья

Многоагентная система аудита улучшает клиническую психическую диагностику, разделяя процесс мышления на стадии восприятия, извлечения, вывода и аудита. Оценка на датасете DAIC-WOZ показывает снижение ошибки прогнозирования тяжести депрессии по шкале PHQ-8 с 5,35 до 5,02 и обеспечивает интерпретируемую и проверяемую диагностическую логику.

arxiv arXiv cs.CL · 2 д назад

Исследование показало, что ИИ всё ещё несётся обнаруживать халцинации в юридических цитатах

Новое исследование показывает, что более 1000 юридических документов содержат вымышленные цитаты, количество которых ежегодно растёт. Проверка пяти ИИ-моделей показывает улучшение производительности, при этом GPT-5 достигает 82,8% точности и 60,5% F1 в агентных условиях, однако все модели сталкиваются с трудностями в обнаружении тонких ошибок и сталкиваются с ограничениями из-за ограниченного доступа к информации.