Лаборатория · Alibaba (Qwen)
arxiv arXiv cs.CL · 2 д назад

Скрытая личная память: динамические мягкие промпты для персонализации LLM

Скрытая личная память (LPM) представляет пользовательские воспоминания в виде компактной, постоянной матрицы из N скрытых слотов. Эти слоты отображаются через общий сетевой слой перекрестного внимания в динамические, входные-условные мягкие промпты, которые добавляются в начало замороженного LLM. LPM превосходит LoRA и Prompt Tuning на 8,8% и 54,4% на PersonaMem v1, снижает использование кэша ключей-значений более чем в 64 раз, достигает такой же точности, как LoRA на LoCoMo, при 120 раз меньше параметров, и эффективно масштабируется при увеличении длины контекста, превосходя полный контекст при 128K токенах.

arxiv arXiv cs.LG · 6 д назад

Метод probe-and-refine улучшает производительность код-агента

Новый метод, называемый probe-and-refine tuning, использует синтетические пробы исправления ошибок для итеративного улучшения файлов руководства репозитория с помощью одноразовых вызовов LLM, без циклов агентов или использования инструментов. На SWE-bench Verified он достигает среднего коэффициента разрешения 33,0% — на 14,5 процентных пункта выше начального статического базового знания — что свидетельствует о расширении охвата, а не точности исправлений. Метод позволяет агентам эффективно использовать большие бюджеты шагов, и производительность остается стабильной при различных моделях, при наличии достаточного диагностического вывода.

arxiv arXiv cs.AI · 6 д назад

SoftSkill: сжатие поведенческих навыков для адаптации в контексте

SoftSkill предлагает метод сжатия естественных языковых навыков в компактные скрытые предпосылки, что улучшает выполнение задач на SearchQA, LiveMath и DocVQA. Метод превосходит SkillOpt на 5,2–12,5 баллов по ключевым метрикам, при этом заменяя сотни или тысячи токенов Markdown на несколько виртуальных токенов.

arxiv arXiv cs.CL · 6 д назад

AgentFinVQA: аудитируемый, локальный вопрос-ответ по финансовым графикам

AgentFinVQA представляет многоагентную систему для вопросов по финансовым графикам, обеспечивающую аудитируемость и возможность развертывания на локальной инфраструктуре без значительного снижения точности. Она превосходит базовые модели на +7,68 pp при использовании проприетарного ядра и на +4,84 pp с открытыми весами Qwen3.6-27B-FP8, при этом обеспечивая сигнал уверенности через вывод верификатора, что улучшает маршрутизацию ручного обзора.

arxiv arXiv cs.CL · 6 д назад

Селективная проверка для рассуждений с учетом бюджета

Sevra, управляющий слой контроллера, селективно проверяет ответы для повышения точности и снижения использования токенов. На \mathfive оно достигает точности 76,3% с 26,8% меньшим количеством токенов после генерации и вдвое меньшим количеством вредоносных ошибок, при этом на \gsm оно проверяет только 3,0% примеров, повышая точность до 94,5% и сокращая использование токенов проверки на 91,2%. Исследование показывает, что длина начального решения и необходимость в явном контроле определяют оптимальную стратегию проверки.

arxiv arXiv cs.CL · 6 д назад

STAGE: Генерация данных с опорой на источник для преобразования текста в JSON

STAGE — это пайплайн, который генерирует обучающие данные текст-в-JSON с использованием языковых моделей для синтеза отчётов и схем JSON, проверенных посредством исходных таблиц. Оценки на STAGE-Eval показывают, что STAGE повышает точность Qwen3-4B с 31,37% до 74,27% и точность значений с 45,46% до 90,69%.

arxiv arXiv cs.CL · 6 д назад

HydraHead: гибридное внимание на уровне головок для производительности при длинных контекстах

HydraHead вводит гибридное объединение полного и линейного внимания на уровне головок, используя интерпретируемость для выбора головок, критичных для поиска, и объединяя выходы через модуль с нормализацией масштаба. Обученный на 15 миллиардов токенов, он обеспечивает более чем 69% улучшения по сравнению с базовой моделью при длине контекста 512K, превосходя гибридные модели на уровне слоев и приближаясь к производительности Qwen3.5 на задачах с длинными контекстами.

arxiv arXiv cs.CL · 6 д назад

Каузальные направления активации для смягчения эмерджентной несоответственности в языковых моделях

Тонкая настройка языковых моделей на небезопасном коде приводит к эмерджентной несоответственности. Общее направление активации в четырех семействах моделей обеспечивает разделяемость 99,6% между соответствующими и несоответствующими активациями, а вычитание этого направления снижает проникновение кода на 21–51 балл. Переход между архитектурами демонстрирует подавление поведения, но отсутствует специфичность; направления внутри модели являются кausalно действительными, а направления между моделями — только кausalно реальными.

arxiv arXiv cs.LG · 7 д назад

МАСТ обеспечивает селективное исключение в процессе принятия решений, вызванного RLVR

МАСТ, механизм-ориентированный метод исключения, достигает целенаправленного забвения процесса принятия решений, вызванного RLVR, с минимальными побочными эффектами. На Qwen2.5-Math-1.5B и Qwen3-1.7B-Base он значительно снижает производительность MATH (45/150 до 37/15-0), при этом сохраняет точность GSM8K на +0.8 пунктов и поддерживает сохранение MATH на -0.5 пунктов. Результаты остаются стабильными при различных семенах, целях и моделях, демонстрируя превосходную стабильность по сравнению с полным исключением параметров.

arxiv arXiv cs.AI · 7 д назад

МАСТ обеспечивает селективное исчезновение в процессе принятия решений, вызванных RLVR

МАСТ, метод селективного исчезновения, обеспечивает целенаправленное забвение процесса принятия решений, вызванного RLVR, с минимальными побочными эффектами. На Qwen2.5-Math-1.5B и Qwen3-1.7B-Base он значительно снижает производительность MATH (45/150 до 37/150), сохраняя точность GSM8K на +0.8 пунктов и поддерживая сохранение MATH на -0.5 пунктов. Результаты остаются стабильными при различных семенах, целях и моделях, демонстрируя превосходную стабильность по сравнению с полным исчезновением параметров.

arxiv arXiv cs.CL · 7 д назад

OmniAgent: интегрированная активная восприятие для многомодального понимания

OmniAgent вводит итеративный цикл наблюдения-мысли-действия на основе POMDP для понимания видео, позволяя выполнять действия по требованию и селективно выделять аудиовизуальные сигналы в постоянную текстовую память. Он достигает передовых результатов на десяти бенчмарках, при этом агент на 7 миллиардов параметров превосходит модель Qwen2.5-VL-72B на 10 раз по размеру на LVBench (50,5% против 47,3%).

arxiv arXiv cs.LG · 7 д назад

В фокусе: использование GPU Spot для ускорения постобучивания DiT RL

Spotlight позволяет ускорить постобучивание DiT RL за счёт использования пустых GPU Spot, снижая расходы в 1,4–6,4 раза при достижении превосходного качества изображений. Используя устаревшие веса модели при исследовании и динамически переконфигурируя последовательную параллельность, обеспечивается эффективное использование GPU без нарушения обучающих потоков.

arxiv arXiv cs.CL · 7 д назад

PragReST: Саморазвивающаяся косвенная логика для понимания прямого языка

PragReST — это самосупервизированная система, которая улучшает прямое мышление больших языковых моделей за счёт генерации следов косвенного мышления и обучения через надзорную тонкую настройку и обучение с помощью вознаграждения. Она превосходит базовые модели на четырёх прямых тестах, улучшая точность Qwen3-8B и Qwen3-14B на 5,37% и 5-5,50% соответственно, и сохраняет сильную производительность на задачах общего знания и математического мышления.

arxiv arXiv cs.CL · 7 д назад

Данные рецептура повышает долгосрочное мышление в больших языковых моделях

Центрированный на данных подход улучшает долгосрочное мышление в больших языковых моделях, используя восемь отобранных наборов данных с 14 тысячами примерами в задачах поиска, синтеза многоуровневых доказательств и мышления. При сочетании с минимальным обучением на основе результатов GRPO достигается средний рост на 7,2 до 6,4 баллов на семи бенчмарках, превосходя предыдущие наборы обучения по релевантности, и улучшает агентную производительность на 4,8 и 7,0 баллов соответственно на GAIA и BrowseComp.

arxiv arXiv cs.AI · 7 д назад

Данные рецепт улучшает долгосрочное мышление в больших языковых моделях

Центрированный на данных подход улучшает долгосрочное мышление в больших языковых моделях, используя восемь отобранных наборов данных с 14 тысячами примерами в задачах поиска, синтеза многочисленных доказательств и мышления. При сочетании с минимальным обучением на основе результатов GRPO, он достигает средних приростов на 7,2 до 6,4 баллов на семи бенчмарках, превосходя предыдущие наборы для обучения по методу RL, и улучшает агентную производительность на 4,8 и 7,0 баллов соответственно на GAIA и BrowseComp.

arxiv arXiv cs.AI · 7 д назад

Фокус: Использование GPU Spot для ускорения постобучивания DiT RL

Фокус позволяет осуществлять постобучивание DiT RL за счёт использования пустых GPU Spot, снижая расходы на 1,4–6,4 раза при достижении превосходного качества изображений. Оно использует устаревшие веса модели при исследовании и динамически перестраивает последовательную параллельность в реальном времени, обеспечивая эффективное использование GPU без нарушения обучающих цепочек.

arxiv arXiv cs.CL · 8 д назад

Географическая предвзятость в больших языковых моделях из метаданных пользователей

Исследование показывает, что даже нейтральные запросы вызывают ответы, зависящие от региона, в больших языковых моделях из-за метаданных пользователей. Потеря местоположения увеличивается в некоторых моделях до 793 раз, и использование значения "Неизвестно" вместо метаданных местоположения всё равно вызывает значительную предвзятость, что указывает на то, что сам профиль пользователя действует как сигнал условий.

arxiv arXiv cs.CL · 8 д назад

RubricsTree: масштабируемая система оценки для персональных агентов здоровья

RubricsTree вводит иерархическую классификацию более 100 клинически подтвержденных булевых рубрик, эволюционировавших из 4000 реальных запросов пользователей при помощи ручной коррекции. Оно обеспечивает масштабируемую оценку персональных агентов здоровья, согласованную с экспертами, путем динамического направления запросов в соответствующие рубрики и превосходит базовые методы по согласованности, чувствительности к контексту и достигает роста производительности моделей до 66% на HealthBench.

arxiv arXiv cs.CL · 8 д назад

ZPPO: Учитель в промптах, а не в градиентах

Зона проксимальной оптимизации политики (ZPPO) интегрирует знания учителя прямо в промпты, а не в градиенты политики. Используя двоичные и отрицательные кандидаты с включёнными вопросами, ZPPO выявляет недостатки учащихся и усиливает обучение через буфер повторного использования промптов, достигая превосходных результатов на сложных вопросах на различных масштабах учащихся, особенно при использовании малых моделей.

arxiv arXiv cs.LG · 8 д назад

EnvRL: Использование динамики среды в агентном RL

EnvRL представляет рамку, которая улучшает агентное обучение с помощью вознаграждения за интеграцию динамики среды через прогнозирование состояния и обратные динамические цели. При обучении с использованием GRPO, EnvRL повышает показатели успеха Qwen-2.5-1.5B-Instruct с 72,8% до 77,4% на ALFWorld и с 56,8% до 67,0% на WebShop.