Источник · arXiv cs.CL
arxiv arXiv cs.CL · 8 д назад

Динамическое редактирование последовательности уменьшает перегрузку мышления в моделях рассуждений, обученных методом релей-обучения

Динамическое редактирование последовательности (DRE) решает проблему перегрузки мышления в моделях рассуждений, обученных методом релей-обучения, путем модификации успешных траекторий после появления ответа. DRE сохраняет правильный предварительный этап рассуждения, при этом редактирует ненужные продолжения, ослабляя кредит, присваиваемый избыточным рассуждениям, без наказания за корректные рассуждения. Эксперименты на различных задачах демонстрируют его эффективность в снижении перегрузки мышления.

arxiv arXiv cs.CL · 9 д назад

LOGOS: Общее генеративное моделирование для естественных наук

LOGOS — это единая генеративная языковая модель, которая представляет научные объекты и их взаимодействия в виде последовательностей токенов в общей грамматике. Модель достигает стабильной или превосходной производительности на различных задачах естественных наук, демонстрируя возможность использования одной модели для работы в нескольких областях. Производительность модели растёт с увеличением количества параметров, и её конструкция указывает на то, что искусственный интеллект для науки должен тесно интегрироваться с большими языковыми моделями через общие архитектуры и обучение.

arxiv arXiv cs.CL · 9 д назад

TokenPilot: Эффективное управление контекстом для агентов LLM

TokenPilot снижает расходы на инференс на 61% до 87% как в изолированном, так и в непрерывном режимах, превосходя предыдущие системы по эффективности расходов, при этом сохраняя конкурентные показатели производительности. Оно использует сжатие, учитывающее ввод, и эвакуацию, учитывающую жизненный цикл, для сохранения непрерывности кэша запросов и минимизации размера токенов.

arxiv arXiv cs.CL · 9 д назад

DeepRubric: Эффективная RL для агентов глубокого исследования

DeepRubric представляет рамку построения данных, которая создает пары запрос-оценочный критерий, начиная с определения верифицируемых целей оценки через дерево доказательств. Оно генерирует 9K примеров надзора и обучает модель размером 8B с использованием GRPO, достигая производительности, сравнимой с лучшими моделями, при использовании в 13 раз меньшего количества часов GPU для RL.

arxiv arXiv cs.CL · 9 д назад

KVEraser: Эффективное локализованное удаление контекста в LLMs

KVEraser обеспечивает эффективное локализованное удаление контекста в больших языковых моделях, заменяя только состояния кэша KV для удаленного сегмента на обученные направляющие состояния. Он достигает почти полной переработки производительности на задачах в области знаний при длинах контекста от 1K до 32K, с ростом задержки только на 24%, и превосходит другие приближенные методы при работе с длинными документами в вопросах и ответах, обеспечивая скорость в 3-4 раза превышающую полную переработку.

arxiv arXiv cs.CL · 9 д назад

MetaSyn: Оценка агентов ЛЛМ на статьях по мета-анализу

MetaSyn представляет датасет из 442 мета-анализов, экспертно отобранных из Nature Portfolio. Он оценивает двенадцать конфигураций агентов ЛЛМ и выявляет критическую точку в отборе исследований, где ни одна система не восстанавливает более 52,7% истинно включённых источников, несмотря на высокую точность поиска.

arxiv arXiv cs.CL · 9 д назад

ContextRL: контекстуально-оптимизированный RL для LLMs

ContextRL вводит косвенную вспомогательную цель для улучшения долгосрочного мышления и многомодальных характеристик в LLMs. Модель получает награду за выбор контекста, поддерживающего пару запрос-ответ, используя контрастные данные о контексте из траекторий кодирующих агентов и изображений, связанных с визуальными вопросами. ContextRL достигает роста на +2,2% и +1,8% по сравнению с стандартными методами на тестах долгосрочного мышления и визуальных вопросов, причём рост объясняется выбором цели, а не дополнением данных.

arxiv arXiv cs.CL · 9 д назад

Языковые модели кодируют значение своей текущей траектории

Qwen3-8B внутренне отслеживает значение своей текущей траектории, определяемой как вероятность достижения своих целей. Эта "ось значения" различает уровни уверенности, поведение отката и корректность кода, и демонстрирует, что оптимизация предпочтений повышает уверенность в премиированных действиях. Модель присваивает низкое значение политически чувствительным запросам после обучения, а финальная настройка повышает уверенность в определённых областях.

arxiv arXiv cs.CL · 8 д назад

GameCraft-Bench: Оценка полного генерирования игр

GameCraft-Bench представляет бенчмарк с 140 задачами Godot в 15 семействах игр для оценки способности код-агентов генерироватьPlayable игры. Оценки показывают, что лучший агент достигает лишь 41,46% успеха, что указывает на значительные трудности в создании полных, интерактивных игр с согласованной игрой и визуальной обратной связью.

arxiv arXiv cs.CL · 8 д назад

ChLogic: Проверка устойчивости логического мышления в китайских выражениях

ChLogic оценивает, насколько хорошо большие языковые модели сохраняют логическое мышление при выражении английских логических структур на китайском языке. Исследование выявляет постоянный разрыв в производительности между английским и китайским, при котором обратная трансляция улучшает результаты на общих задачах, но ухудшает результаты на сложных задачах. Бенчмарк подчёркивает влияние поверхностной реализации, артефактов перевода и специфических поведений моделей на мультиязычное мышление.

arxiv arXiv cs.CL · 8 д назад

Неположительное декодирование Эластичного сети для информационного поиска

Декодирование NNN выбирает документы как совокупность, которая совместно восстанавливает вектор запроса через разреженную неотрицательную линейную комбинацию. Оно строго расширяет плотное извлечение, обеспечивая обработку запросов, на которых плотное извлечение не справляется, особенно в корпусах с коррелированными документами, и достигает превосходной производительности за счет обучения векторов в конечном виде.

arxiv arXiv cs.CL · 8 д назад

Настройка ЛЛМ для оценки степени пассивной депрессии

Модель, настроенная на Qwen3.5-27B, предсказывает оценки PHQ-9 на основе транскриптов диалогов с ИИ, достигая MAE=2.6 и AUC=0.91 при пороге PHQ-9 >= 10. Она сохраняет AUC > 0-87 на всех уровнях степени PHQ-9, демонстрируя точную оценку степени депрессии в реальных диалогах без самопротоколирования.

arxiv arXiv cs.CL · 8 д назад

VoidPadding: Разделение [EOS] завершения и заполнения в MDLMs

VoidPadding вводит [VOID] как токен заполнения для разделения семантического завершения и моделирования длины ответа. Он повышает производительность при решении математических задач и генерации кода на 17,84 пункта по сравнению с исходной моделью и снижает среднее количество ошибок декодирования на 55,7%.

arxiv arXiv cs.CL · 9 д назад

Контрастно-разностное CKA раскрывает концептуально-специфическое выравнивание между архитектурами языковых моделей

Бесплатный диагностический инструмент, контрастно-разностное CKA (CKA_Delta), выявляет концептуально-специфическое структурное выравнивание между архитектурами языковых моделей. Оно обнаруживает геометрическое сходство и функциональную передачу в шести концептуальных областях, включая ненавыковые задачи, с значительной дискриминацией там, где стандартное CKA не справляется. Результаты указывают на то, что универсальность может усиливаться с ростом масштаба моделей, хотя необходима дополнительная проверка.

arxiv arXiv cs.CL · 9 д назад

МЕНЬШЕ — БОЛЬШЕ: Адаптивная выборка для моделей диффузионного языка

LESS представляет адаптивный сэмплер, не требующий обучения и универсальный по отношению к моделям, который снижает количество шагов обратного удаления шума на 72,1% по сравнению с фиксированным бюджетом декодирования. Он обеспечивает более высокую точность, чем существующие сэмплеры без обучения, и снижает вычислительные затраты и задержку в инференсе за счёт правил взаимной стабильности, которые гарантируют привязку токенов только тогда, когда предсказания являются уверенным, согласованным и стабильным.

arxiv arXiv cs.CL · 9 д назад

Ключевые свойства для эффективного рассуждения кодового интерпретатора

Исследование выявляет внешние (ключевые токены) и внутренние (когнитивные поведения) свойства, которые улучшают рассуждение кодового интерпретатора в больших языковых моделях. Модели с более сильным рассуждением демонстрируют более высокую частоту верификации, отката и обратного вывода, при этом эти свойства повышают производительность во время инференса и обучения, снижают избыточное мышление и повышают эффективность токенов.

arxiv arXiv cs.CL · 9 д назад

После-операторы не улучшают точность в малых моделях кода

Исследование по измерению показывает, что 26 семантических после-операторов не улучшают точность на выделенных данных по сравнению с Best-of-N в замороженных малых моделях кода. Хотя два оператора — восстановление слоя выражений и адаптивный консенсус на раннем останове — обеспечивают преимущества в эффективности вычислений или восстановлении программы, ни один из них не превосходит BoN по точности. Результаты подчеркивают системные ограничения в обнаружении и покрытии ошибок, что указывает на необходимость улучшения инструментов для обнаружения ошибок и их покрытия до того, как будет рассматриваться пост-операционное рассуждение.

arxiv arXiv cs.CL · 8 д назад

Интервенционное постобучивание речевых фундаментальных моделей

Новый метод использует интервенционное контрастное обучение для уточнения речевых фундаментальных моделей, преобразуя их переплетённые представления в отдельные подпространства содержания и говорящего. Метод улучшает производительность при проверке говорящих за пределами области и демонстрирует ясное разделение информации о говорящем и содержании в обученных подпространствах.

arxiv arXiv cs.CL · 9 д назад

Символьная неформализация в проекте Informath

Проект Informath демонстрирует символическую неформализацию для преобразования формальных математических доказательств в естественный, гладкий и точный язык. Он использует Dedukti как центральный узел, соединяющий системы доказательств, такие как Agda, Lean и Rocq, с Grammatical Framework, обеспечивающим правильность языковой структуры на нескольких языках.

arxiv arXiv cs.CL · 9 д назад

Релиз датасета IMPACTeen в английской и польской версиях

IMPACTeen — это датасет из 1021 текста, аннотированный с пяти сторон — среди подростков, родителей, психологов, экспертов по коммуникации и учителей. В него включены 5100 записей аннотаций, охватывающих социальные методы влияния, намерения, последствия и сопротивление, с проверкой аннотаций через ручную редакцию. Датасет, созданный с использованием генерации LLM и ручной проверки, доступен на английском и польском языках и используется для исследований в области социального влияния и обучения языковых моделей.