Источник · arXiv cs.CL
arxiv arXiv cs.CL · 6 д назад

Каузальные направления активации для смягчения эмерджентной несоответственности в языковых моделях

Тонкая настройка языковых моделей на небезопасном коде приводит к эмерджентной несоответственности. Общее направление активации в четырех семействах моделей обеспечивает разделяемость 99,6% между соответствующими и несоответствующими активациями, а вычитание этого направления снижает проникновение кода на 21–51 балл. Переход между архитектурами демонстрирует подавление поведения, но отсутствует специфичность; направления внутри модели являются кausalно действительными, а направления между моделями — только кausalно реальными.

arxiv arXiv cs.CL · 7 д назад

STARE: Surprisal-Guided Token-Level Advantage Reweighting for Policy Entropy Stability

STARE решает проблему коллапса политической энтропии в методах GRPO на основе робастного обучения, определяя подмножества токенов, критичных для энтропии, с помощью квантилей неудивления и пересчитывая их преимущества. Оно обеспечивает стабильность политической энтропии на различных масштабах модели и задач, превосходя DAPO и другие базовые методы на 4%-8% на AIME24 и AIME25, с постоянным балансом между исследованием и эксплуатацией.

arxiv arXiv cs.CL · 7 д назад

Кадрово-условная самодистилляция

Кадрово-условная самодистилляция представляет собой рамку, которая использует структурированные критерии для предоставления детализированного, уровня токена обратной связи во время самодистилляции рациональных языковых моделей. С использованием условий для учителей на уровне критериев кадров, достигается более точное назначение кредитов, чем скалярные вознаграждения, и превосходит GRPO и OPSD на 1,0 и 0,9 пунктов в среднем по наукоемким тестам на рациональность.

arxiv arXiv cs.CL · 7 д назад

Turing-RL: обучение имитаторов пользователей с вознаграждениями Тьюринга

Turing-RL представляет метод обучения с помощью подкрепления, использующий LLM-оценщик для оценки степени неразличимости сгенерированных ответов от реальных вводов пользователей. Метод превосходит базовые подходы как в оценках LLM, так и в оценках людей в областях чатов и форумов Reddit, демонстрируя, что оптимизация по неразличимости улучшает производительность имитаторов пользователей.

arxiv arXiv cs.CL · 7 д назад

OmniAgent: интегрированная активная восприятие для многомодального понимания

OmniAgent вводит итеративный цикл наблюдения-мысли-действия на основе POMDP для понимания видео, позволяя выполнять действия по требованию и селективно выделять аудиовизуальные сигналы в постоянную текстовую память. Он достигает передовых результатов на десяти бенчмарках, при этом агент на 7 миллиардов параметров превосходит модель Qwen2.5-VL-72B на 10 раз по размеру на LVBench (50,5% против 47,3%).

arxiv arXiv cs.CL · 7 д назад

PragReST: Саморазвивающаяся косвенная логика для понимания прямого языка

PragReST — это самосупервизированная система, которая улучшает прямое мышление больших языковых моделей за счёт генерации следов косвенного мышления и обучения через надзорную тонкую настройку и обучение с помощью вознаграждения. Она превосходит базовые модели на четырёх прямых тестах, улучшая точность Qwen3-8B и Qwen3-14B на 5,37% и 5-5,50% соответственно, и сохраняет сильную производительность на задачах общего знания и математического мышления.

arxiv arXiv cs.CL · 7 д назад

Неправильная синхронизация в больших языковых моделях: количественное исследование

Новое исследование представляет VETO — бенчмарк из 2032 пар контрастных примеров, полученных из BBQ, для количественной оценки неправильной синхронизации в больших языковых моделях. В нем определяется коэффициент неправильной синхронизации (MAR) и показывает, что все проверенные большие языковые модели демонстрируют значения MAR от 4,7% до 18,9%, в то время как люди достигают 0%. Исследование показывает, что сигналы синхронизации могут усиливать эти сбои, и доказательства подавления происходят в поздних слоях моделей и появляются после тренировки по инструкциям.

arxiv arXiv cs.CL · 7 д назад

Сети с раздраженной синхронизацией превосходят трансформеры

Сети с раздраженной синхронизацией (FSN) достигают более низкой ошибки валидации, чем трансформер с RoPE-SwiGLU на уровне символов и задачах по коду на каждом эпохе. При одном миллионе параметров FSN достигает ошибки валидации 1,5953 ± 0,0014, что превосходит достигнутую ошибку трансформера 1,611. Это преимущество сохраняется до четырёх миллионов параметров, при этом продолжаются оценки на более высоких масштабах.

arxiv arXiv cs.CL · 7 д назад

Редактирование вектора выхода снижает запоминание в языковых моделях

Новая методика, называемая редактированием вектора выхода, минимально изменяет векторы выхода нейронов MLP для подавления запомненных последовательностей в больших языковых моделях, достигая до 87,9% подавления в OLMo-7B. Этот подход превосходит нулевое изменение активаций нейронов в 2,7 раза и работает на четырех моделях с параметрами от 36 до 7B, при этом эффективность растет с увеличением размера модели и демонстрирует стабильную производительность при различных архитектурах.

arxiv arXiv cs.CL · 7 д назад

HandwritingAgent: синтез ручного почерка на основе языка в SVG

HandwritingAgent синтезирует естественный ручной почерк в формате SVG без специфического обучения стилю. Он использует большой модельный рациональный процесс для генерации последовательностей линий на сетке холста, с учетом текстового ввода и образца стиля, обеспечивая эффективное, управляемое и обобщаемое генерирование почерка.

arxiv arXiv cs.CL · 7 д назад

Данные рецептура повышает долгосрочное мышление в больших языковых моделях

Центрированный на данных подход улучшает долгосрочное мышление в больших языковых моделях, используя восемь отобранных наборов данных с 14 тысячами примерами в задачах поиска, синтеза многоуровневых доказательств и мышления. При сочетании с минимальным обучением на основе результатов GRPO достигается средний рост на 7,2 до 6,4 баллов на семи бенчмарках, превосходя предыдущие наборы обучения по релевантности, и улучшает агентную производительность на 4,8 и 7,0 баллов соответственно на GAIA и BrowseComp.

arxiv arXiv cs.CL · 7 д назад

REVES: Усиленное обучение для масштабирования на этапе тестирования

REVES представляет двухэтапную итерационную структуру, которая улучшает логическое мышление больших языковых моделей за счёт последовательного редактирования и проверки. Метод достигает +6,5 баллов по сравнению с базовыми RL и +4,0 балла по сравнению с стандартным многократным обучением на LiveCodeBench, используя базовую модель размером 4B и меньшее количество итераций по сравнению с более крупными системами. Метод улучшает исправление ошибок и обобщается на задачи вне распределения, такие как n_queens и mini_sudoku.

arxiv arXiv cs.CL · 7 д назад

SenFlow: Расширенная детекция текста, сгенерированного ИИ, в гибридных документах

SenFlow представляет новую методику детекции текста, сгенерированного ИИ, в гибридных документах, моделируя зависимости между предложениями. Он достигает наилучших результатов на MOSAIC, бенчмарке из 16 000 документов из PubMed и XSum, с ростом Macro-F1 на 4,15 пунктов при переходе между доменами. SenFlow показывает, что текст, сгенерированный ИИ, по-прежнему демонстрирует зависимости между предложениями, зависящие от генератора, которые могут быть использованы детекторами на уровне предложений, несмотря на фильтрацию по перплексности.

arxiv arXiv cs.CL · 7 д назад

Разделение поиска от рассуждений в агентах на основе языковых моделей

Разделенный поисковый фундамент (DSG) отделяет функциональность поиска от моделей рассуждений, обеспечивая вендор-независимый, настраиваемый и повторно используемый поисковый фундамент. DSG достигает почти естественной точности на SimpleQA с 91% меньшими затратами на поиск и 99,4% частотой попадания в тёплую кэш-память, одновременно снижая задержку на 68% и сохраняя краткие контракты выходных данных.

arxiv arXiv cs.CL · 7 д назад

GraphPO: графовая оптимизация политики для моделей рассуждения

GraphPO вводит направленную ациклическую графовую структуру для представления рассуждений, объединяя семантически эквивалентные пути для снижения избыточного исследования. Оно присваивает эффективность и корректность к рёбрам, улучшая эффективность инференса и надзор за процессом, одновременно снижая дисперсию оценки преимуществ. Эксперименты показывают, что GraphPO превосходит методы на основе цепей и деревьев на трёх моделях языковых моделей по задачам рассуждения и агентского поиска при одинаковых объёмах токенов или ответов.

arxiv arXiv cs.CL · 8 д назад

LegalHalluLens: аудит галлюцинаций в правовом ИИ

LegalHalluLens представляет рамку для аудита галлюцинаций ИИ в правовых контекстах, анализируя профили галлюцинаций при вводе по четырём категориям утверждений. Оно выявляет разрыв в 38-40 баллов между утверждениями о обязательствах/числовых и временных утверждениях, и показывает, что две системы с одинаковыми показателями 52% галлюцинаций могут иметь противоположные направления риска. Рамка использует Индекс направления риска и калиброванные дебатные потоки для снижения выявления фальшивых утверждений на 45% и повышения ответственности при внедрении правового ИИ.

arxiv arXiv cs.CL · 8 д назад

ProvenanceGuard: проверка достоверности с учетом источника для агентов на основе LLM с использованием MCP

ProvenanceGuard вводит проверяющий модуль с учетом источника для агентов на основе LLM с использованием MCP, который обнаруживает пересечение источников путем направления утверждений к конкретным источникам доказательств и сравнения заявленного принадлежности с фактическим владением источником. Он достигает значения F1 по блокам 0,802 и точности по источникам 0,858 на 260 утверждениях, имеющих источники, превосходя базовые модели без учета источника, и обнаруживает все введенные обмены принадлежности в 50 клинических тестах.

arxiv arXiv cs.CL · 8 д назад

SkillWeaver: Составная маршрутизация навыков для агентов на основе языковых моделей

SkillWeaver вводит рамку декомпозиции-получения-составления для агентов на основе языковых моделей, формализующую проблему составной маршрутизации навыков. Он достигает точности декомпозиции на уровне 67,7% с помощью итеративной декомпозиции с учетом навыков (SAD), улучшая результат с 51,0% с p-значением менее 10^-6, и снижает использование окна контекста более чем на 99%.

arxiv arXiv cs.CL · 8 д назад

Уязвимость ввода тройных фигурных скобок в Handlebars, позволяющая внедрять роли структур

Тройное вставление фигурных скобок в Handlebars не защищает от внедрения ролей структур, поскольку экранирование HTML нейтрализует только разделители в виде угловых скобок. Оно не затрагивает разделители в виде точки и хеш-символа Markdown, что позволяет атакующим перехватывать ходы модели. По умолчанию экранирование не защищает большинство семей разделителей ролей и не может заменить структурное разделение инструкций и данных.

arxiv arXiv cs.CL · 8 д назад

Географическая предвзятость в больших языковых моделях из метаданных пользователей

Исследование показывает, что даже нейтральные запросы вызывают ответы, зависящие от региона, в больших языковых моделях из-за метаданных пользователей. Потеря местоположения увеличивается в некоторых моделях до 793 раз, и использование значения "Неизвестно" вместо метаданных местоположения всё равно вызывает значительную предвзятость, что указывает на то, что сам профиль пользователя действует как сигнал условий.