Все статьи
arxiv arXiv cs.CL · 6 ч назад

Триада Волков: роль Шута для многошагового понимания теории разума в больших языковых моделях

Исследователи расширили игру «Волки и овцы», добавив роль Шута, чтобы создать триадную среду социального дедуктирования, требующую рассуждений над тремя противоположными функциями полезности, что бросает вызов возможностям больших языковых моделей в области теории разума. Оценки на GPT-4.1, DeepSeek-V3.1 и Llama-3.3-70B показали, что хотя Шут выигрывал 60–70% игр, волки GPT-4.1 часто голосовали за изгнание Шута в первый день в 60–70% случаев — это самоподрывающее действие, обусловленное языковыми приоритетами.

arxiv arXiv cs.CL · 6 ч назад

Решение геометрических задач с верификацией: Автоформализация и предложение теорем на основе решателя

Исследователи предлагают SD-GPS, фреймворк для решения геометрических задач, управляемый решателем, который устраняет узкие места в автоформализации и предсказании теорем, рассматривая символьный решатель как оракул выполнения. Этот подход объединяет адаптированное формального языка с учителем (supervised) и обучение с подкреплением, направляемое выполнимостью, чтобы обеспечить исполняемость во время формализации.

arxiv arXiv cs.CL · 6 ч назад

VASAE: Именование направлений словаря SAE с помощью привязки к словарю

Авторы представляют Vocabulary-Aligned Sparse Autoencoder (VASAE), метод, который обучает признаки разреженного автоэнкодера с использованием привязки к словарю для присвоения каждому признаку внутреннего имени токена на основе ближайшего вложения в словаре Трансформера.

arxiv arXiv cs.CL · 6 ч назад

Убеждающее позиционирование ИИ в коллективных дилеммах

Исследование с участием 1283 человек проверило, могут ли ИИ-ассистенты повысить уровень сотрудничества в повторяющихся играх коллективного риска посредством персонализированного убеждающего позиционирования на основе профилей ориентации социальной ценности. Исследование показало, что хотя просоциальные подталкивания значительно увеличили объемы взносов и показатели успеха группы, эти эффекты были кратковременными.

arxiv arXiv cs.CL · 7 ч назад

Эмпирический анализ фактических ошибок в текстах, написанных человеком, и его применение

В данном исследовании рассматривается проблема игнорирования обнаружения фактических ошибок в текстах, написанных человеком, путем выделения таксономии ошибок из исправлений в газетных статьях. Выявлены категории, такие как неверное использование кандзи, отсутствующие в текущих бенчмарках галлюцинаций. Авторы оценивают базовые большие языковые модели на синтезированных тестовых случаях и реальных исправлениях для оценки их производительности в этой конкретной задаче.

arxiv arXiv cs.CL · 7 ч назад

Многоэтапная объяснимая система для выявления когнитивных нарушений по речи

Исследователи предлагают многоэтапную систему объяснимости, которая преобразует предсказания «черного ящика» трансформеров в клинически обоснованные нарративы для выявления когнитивных нарушений по речи. Система объединяет токеновую атрибуцию на основе SHAP, лингвистические признаки и конвейер рассуждений LLM для сопоставления выходов модели с конкретными когнитивно-лингвистическими измерениями.

arxiv arXiv cs.CL · 7 ч назад

ToxiREX: Набор данных по токсичному REasoning в ConteXt

Исследователи представляют ToxiREX, новый многоязычный набор данных, предназначенный для выявления и объяснения неявной, зависящей от контекста токсичности в ветках комментариев Reddit. Набор данных использует систематическую схему токсичного REasoning для предоставления структурированных аннотаций к комментариям, связанным с крупными глобальными событиями, на шести языках.

arxiv arXiv cs.CL · 7 ч назад

Диалог к обнаружению: мультимодальный гибридный NLP-конвейер для выявления мошенничества со страховыми выплатами

В данной статье представлен синтетический мультимодальный фреймворк, предназначенный для репликации условий подачи первоначального заявления о потере (FNOL) при выявлении страховых мошенничеств, что позволяет преодолеть ограничения существующих подходов, основанных исключительно на тексте. Система генерирует транскрипты диалогов между агентом и клиентом, а также аудиозаписи с двумя говорящими для интеграции лингвистических, поведенческих и голосовых индикаторов.

arxiv arXiv cs.CL · 7 ч назад

Матрица покрытия сигналов: Стратификация ошибок типа и семантических ошибок при автоматической формализации утверждений

В данной статье представлена матрица покрытия сигналов для стратификации ошибок типа и семантических ошибок в процессе автоматической формализации LLM, что позволяет выйти за рамки скалярных метрик корректности типа. Фреймворк классифицирует выходные данные на ячейки истинного успеха, только ошибка типа, только ошибка семантики или оба вида неудач, пересекая результаты элаборатора Lean с оценками семантической эквивалентности.

arxiv arXiv cs.CL · 7 ч назад

Гибридный подход на основе дерева мыслей для суммаризации судебных решений

В данном исследовании предлагается новый гибридный подход к суммаризации, вдохновленный концепцией дерева мыслей (tree-of-thoughts), ориентированный на извлечение и генерацию текста в контексте судебных решений. Это решает проблему недостаточного изучения гибридных методов в предыдущих работах. Эксперименты, сравнивающие модели DeepSeek и LLaMA, показывают, что предложенный метод дает более качественные суммаризации по сравнению с традиционными методами на основе извлечения или генерации текста.

arxiv arXiv cs.CL · 7 ч назад

DG^VoiC: Кластеризация говорящих для расследования мошенничества в условиях реальных колл-центров

В данной статье представлен DG^VoiC, фреймворк кластеризации голоса, предназначенный для выявления повторяющихся говорящих в анонимизированных аудиозаписях реальных колл-центров с целью помощи в расследовании мошенничества. Метод сочетает анонимизацию, согласованную со_sensitive информацией_, предобработку, ориентированную на речь, извлечение эмбеддингов говорящих скользящим окном и кластеризацию на основе косинусного сходства.

arxiv arXiv cs.CL · 7 ч назад

LLM хуже оценивают, чем генерируют в контекстном QA

Исследование ставит под сомнение предположение о том, что большие языковые модели лучше оценивают собственные выходные данные, чем генерируют их, и показывает, что точность генерации превышает точность самооценки на трёх из четырёх протестированных бенчмарков. Исследование использует контролируемую настройку контекстного QA для изоляции производительности оценки от помех параметрических знаний.

arxiv arXiv cs.CL · 7 ч назад

MultiHashFormer: Генеративные языковые модели на основе хеширования

В статье представлен MultiHashFormer — фреймворк, обеспечивающий хеш-авторегрессию в причинных языковых моделях за счет представления токенов в виде уникальных сигнатур дискретных хеш-идентификаторов. Этот подход позволяет модели сжимать информацию о токенах в латентные векторы для обработки трансформером, а затем отображать их обратно в текст, эффективно решая проблемы коллизий «многие-к-одному», которые ранее препятствовали использованию хеширования в генеративных контекстах.

arxiv arXiv cs.CL · 7 ч назад

Слияние данных с одним и несколькими истинами с использованием больших языковых моделей

В данной работе исследуется применение больших языковых моделей (LLM) для задач слияния данных, включающих табличные данные, охватывая как сценарии с одной истиной, так и с несколькими.

arxiv arXiv cs.CL · 7 ч назад

Предел масштабирования случайной языковой модели

В данной статье разрабатывается количественная теория для Случайной Языковой Модели (RLM) в пределе масштабирования, когда количество скрытых символов стремится к бесконечности, а температура грамматики стремится к нулю при фиксированном соотношении. Исследование показывает, что модель допускает контролируемое описание на основе принципа больших отклонений для паттернов использования правил, сводя задачу к Случайным Энергетическим Моделям с нетривиальной комбинаторикой.

arxiv arXiv cs.CL · 7 ч назад

Мониторы на основе механизма для превентивного обнаружения нестабильности обучения LLM

В этой статье представлены мониторы на основе механизма, предназначенные для обнаружения нестабильности обучения больших языковых моделей до того, как она нанесет значительный ущерб. За счет извлечения внутренних сигналов из функциональных ролей критических модулей эти мониторы выявляют сбои за тысячи шагов раньше, чем традиционные методы, основанные на функции потерь.

arxiv arXiv cs.CL · 7 ч назад

От токенов к состояниям: LLM как частный случай мировых моделей

Статья оспаривает дихотомию между большими языковыми моделями и мировыми моделями, утверждая, что LLM на самом деле являются вырожденным частным случаем мировых моделей, а не их заменой. Предполагается, что существует непрерывный спектр от предсказания следующего токена до архитектур в латентном пространстве, при этом текущие исследования уже занимают промежуточные позиции.

arxiv arXiv cs.CL · 7 ч назад

Epi2Diff: Использование трасс рассуждений LLM для предсказания сложности заданий для человека

Исследователи представляют Epi2Diff, фреймворк, который отображает трассы Large Reasoning Model (LRM) в когнитивно обоснованные эпизодические последовательности для предсказания сложности заданий для человека в образовательной оценке. Моделируя сложность через масштаб рассуждений, распределение усилий и переходы состояний, метод предоставляет интерпретируемую альтернативу дорогостоящей человеческой калибровке.

arxiv arXiv cs.CL · 7 ч назад

HPRO: Иерархическая прогрессивная оптимизация вознаграждения для эмоционального TTS

Авторы предлагают HPRO — иерархическую прогрессируемую схему оптимизации вознаграждения, предназначенную для повышения эмоциональной выразительности в моделях преобразования текста в речь на основе LLM при сохранении лингвистической понятности. Этот подход устраняет структурные несоответствия существующих методов, основанных на предпочтениях, путем изоляции содержания и эмоций, а также преодоления разрыва между разреженными вознаграждениями и плотной генерацией.

arxiv arXiv cs.CL · 7 ч назад

Vision-Default, Prior-Override: Каузальные механизмы конфликта восприятия и знаний в моделях визуального языка

В данном исследовании изучается, как модели визуального языка разрешают конфликты между визуальными доказательствами и запомненными мировыми знаниями путем объединения активационного патчинга с механистическим анализом в рамках трех семейств моделей. Исследование выявляет разреженный каузальный контур, где визуальное заземление является режимом по умолчанию, а его переопределение с помощью предварительных знаний требует специфических голов внимания.