Источник · arXiv cs.LG
arxiv arXiv cs.LG · 6 д назад

UltraQuant: 4-битное кэширование KV для агентов с большим контекстом

UltraQuant представляет метод 4-битного кэширования KV, разработанный специально для рабочих нагрузок агентов с большим контекстом. Он обеспечивает сокращение времени до первого токена на поздних этапах на 3,47 раза и увеличение пропускной способности вывода на 1,63 раза по сравнению с кэшированием KV в формате FP8, используя запросы в формате FP8, тензоры KV в формате FP4 и поддержку native AMD CDNA4 scaled-MFMA.

arxiv arXiv cs.LG · 6 д назад

Сбор межгруппового преимущества для самоэволюции агентов, основанных на памяти

В этой статье представлено Межгрупповое накопление преимуществ (MAA), архитектуру постобработки, которая решает проблему несогласованности между группами в самоэволюции агентов, основанных на памяти. MAA формализует сопоставимость и согласованность как структурные условия, использует дифференциальные сигналы и экспоненциальное скользящее среднее для накопления знаковых доказательств на операции, и обеспечивает отслеживаемость за счёт слияния семантических идентификаторов. В 14 из 16 случаев MAA превосходит базовые решения на уровне групп и снижает потребление токенов на 75%.

arxiv arXiv cs.LG · 6 д назад

Совмещение LLM с использованием скрытой обратной связи пользователя

Новый набор данных IFLLM собирает данные о перемещении мыши и взгляде пользователя при взаимодействии с LLM. Он показывает, что скрытая обратная связь значительно улучшает выравнивание LLM, повышая точность текстовых моделей вознаграждения с 55% до 64% и почти втрое увеличивая качество ответов после обучения DPO на восьми LLM.

arxiv arXiv cs.LG · 6 д назад

Передача предвзятости в системах мультиагентных языковых моделей

Contagion Networks представляет рамку для измерения того, как предвзятости оценщиков распространяются среди агентов языковых моделей. В эксперименте с тремя агентами предвзятости распространяются с коэффициентами от 0,157 до 0,352, и агенты однородных моделей демонстрируют значительно меньшую передачу по сравнению с кросс-модельными конфигурациями. Увеличение размера комитета оценщиков от k=1 до k=3 снижает эффективную передачу на 72,4%.

arxiv arXiv cs.LG · 6 д назад

Метод probe-and-refine улучшает производительность код-агента

Новый метод, называемый probe-and-refine tuning, использует синтетические пробы исправления ошибок для итеративного улучшения файлов руководства репозитория с помощью одноразовых вызовов LLM, без циклов агентов или использования инструментов. На SWE-bench Verified он достигает среднего коэффициента разрешения 33,0% — на 14,5 процентных пункта выше начального статического базового знания — что свидетельствует о расширении охвата, а не точности исправлений. Метод позволяет агентам эффективно использовать большие бюджеты шагов, и производительность остается стабильной при различных моделях, при наличии достаточного диагностического вывода.

arxiv arXiv cs.LG · 6 д назад

Капсулы состояния выполнения для низкозадержанного выполнения ИИ на устройстве

Капсулы состояния выполнения позволяют производить контрольные точки и восстановление полного состояния выполнения графа, включая состояния КВ, рекуррентные и конволюционные, что обеспечивает низкую задержку и эффективное выполнение небольших пакетов на устройстве для ИИ. На RTX 5090 и Jetson AGX Thor восстановление капсулы обеспечивает точность на уровне байтов и идентичности токенов, с операциями на GPU менее миллисекунды и ускорением TTFT до 27x при 16k токенах, что демонстрирует значительное снижение задержки в интерактивных рабочих процессах ИИ.

arxiv arXiv cs.LG · 6 д назад

StreamKL: Быстрый и память-эффективный KL-разброс для дистилляции внимания

StreamKL вводит синтезированную GPU-примитив, которая устраняет квадратичное использование памяти в дистилляции внимания за счёт потока кусков запрос-ключ через внутреннюю память SRAM. Оно обеспечивает ускорение до 43 раз в прямом и до 14 раз в обратном проходе, снижая дополнительную площадь HBM от O(N_QN_K) до O(1), что позволяет проводить дистилляцию длинных контекстов на одном GPU.

arxiv arXiv cs.LG · 6 д назад

VIMPO: критерий-бесплатная оптимизация политики для больших языковых моделей

VIMPO представляет метод критерий-бесплатной оптимизации политики, который получает функцию значений, имплицированную политикой, из обучения по репликации с регуляризацией КЛ. Он позволяет интегрировать вознаграждение с верификацией без обучения критерия и превосходит GRPO на математических тестах, особенно при шумных вознаграждениях.

arxiv arXiv cs.LG · 6 д назад

Контроль на основе LLM в многоконтролируемых играх

Характеристика иерархической системы, использующей предобученный LLM для выбора политик RL-навыков, превосходит плоскую RL в среде 2v2 King of the Hill. Она соответствует показателю эффективности, достигнутому при ручной разработке дерева поведения, и воспринимается как более человеческая на 60% пользователей, что подчеркивает эффективную координацию и адаптивность без ручного проектирования правил.

arxiv arXiv cs.LG · 6 д назад

Pose6DAug: Физически обоснованный обмен объектами в многокамерном виде

Pose6DAug обеспечивает аугментацию данных для роботов путем обмена объектами в успешных сессиях, при этом сохраняя физически допустимые траектории 6D ориентации. Оно работает в 3D с использованием сетки, закрепленной за временно согласованными ориентациями, обеспечивая согласованность во множестве камер и физическую обоснованность. Тонкая настройка политики VLA на этом аугментированном данных повышает показатели успешного обнаружения новых объектов на 16,5% по сравнению с современными базовыми моделями.

arxiv arXiv cs.LG · 6 д назад

Генерируемые LLM-ядра GPU подвергаются иллюзии корректности

Оценки с использованием проверок фиксированной формы пропускают реальные ошибки в ядрах GPU, генерируемых LLM. Контролируемый корпус из 24 ядер, включающий 9 вариантов с ошибками транскрипции, показывает, что оракул, учитывающий схему операций, обнаруживает все сбои и проходит все корректные проверки, с одинаковыми результатами на пяти архитектурах GPU.

arxiv arXiv cs.LG · 6 д назад

CRAX: быстрая и безопасная оценка в области обучения с усилением

CRAX представляет высокоточную, быструю оценку безопасности в области обучения с усилением, используя MuJoCo XLA. Он обеспечивает ускорение до 100 раз по сравнению с оценками на процессоре за счёт векторизации и ускорения аппаратными средствами, включая шесть наборов сред и три задачи для агентов на трёх уровнях сложности. Оценка шести методов безопасного обучения с усилением показывает, что ни один подход не доминирует, подчёркивая компромиссы между производительностью и безопасностью, при этом куррикулярное обучение и передача безопасности улучшают результаты.

arxiv arXiv cs.LG · 7 д назад

Дискриминатор-ориентированный RL корректирует потоковое соответствие с помощью наград, синхронизированных с данными

Дискриминатор-ориентированный RL (DRL) использует предобученное пространство представлений для обучения дискриминатора, который отделяет реальные данные от образцов, сгенерированных моделью. Его логит используется в качестве награды в RL с регуляризацией КЛ, обеспечивая соответствие выводов модели визуальной и семантической реальности без человеческих предпочтений. DRL улучшает FID и семантическую FD во всех моделях, таких как SiT и JiT, и усиливает границу Парето между предпочтениями и точностью.

arxiv arXiv cs.LG · 7 д назад

МАСТ обеспечивает селективное исключение в процессе принятия решений, вызванного RLVR

МАСТ, механизм-ориентированный метод исключения, достигает целенаправленного забвения процесса принятия решений, вызванного RLVR, с минимальными побочными эффектами. На Qwen2.5-Math-1.5B и Qwen3-1.7B-Base он значительно снижает производительность MATH (45/150 до 37/15-0), при этом сохраняет точность GSM8K на +0.8 пунктов и поддерживает сохранение MATH на -0.5 пунктов. Результаты остаются стабильными при различных семенах, целях и моделях, демонстрируя превосходную стабильность по сравнению с полным исключением параметров.

arxiv arXiv cs.LG · 7 д назад

STARE: Регулирование преимуществ на уровне токенов с использованием сюрприза для стабильности энтропии политики

STARE решает проблему коллапса энтропии политики в методах обучения с усилением на основе GRPO, выявляя критические подмножества токенов с использованием квантилей сюрприза и пересчитывая их преимущества. Он обеспечивает стабильность энтропии политики на разных масштабах модели и задач, превосходя DAPO и другие базовые методы на 4%-8% на AIME24 и AIME25, с постоянным балансом между исследованием и эксплуатацией.

arxiv arXiv cs.LG · 7 д назад

TxBench-PP: производительность ИИ-агента в преследовании фармакологии

TxBench-PP — это проверяемый бенчмарк для преследования фармакологии маломолекул, проверяющий способность ИИ-агентов делать точные выводы на основе реальных данных о пробах. В 16 конфигурациях моделей-инструментов ни одна система не демонстрировала надежную способность принимать правильные решения в области преследования фармакологии, лучшая производительность составила 59,3% (Claude Opus 4.8 / Pi) и 55,3% (GPT-5.5 / Pi) по попыткам достижения конечных результатов.

arxiv arXiv cs.LG · 7 д назад

OneCanvas: Понимание 3D-сцены через перепроекцию панорамы

OneCanvas обеспечивает понимание 3D-сцены в моделях Вид-Язык путем агрегации признаков патчей на единую панорамную панель с использованием координат 3D-мира. Оно достигает лучших результатов на SQA3D и VSI-Bench, и обобщается на данные вне распределения на SPBench, используя значительно меньшее количество вычислений на обучении по сравнению с существующими методами.

arxiv arXiv cs.LG · 7 д назад

Нулевое влияние на мониторинг выявляет скрытые тренировки машинного обучения

Исследование оценивает классификацию нагрузки на GPU с использованием только мониторинга NVML с нулевым влиянием. Классификатор достигает точности 98,2% при идентификации нагрузок на обучение и точности от 43 до 87% при распознавании неожиданных, враждебно скрытых нагрузок на 9 моделей GPU.

arxiv arXiv cs.LG · 7 д назад

Diffusion-Proof: Первый фреймворк для диффузионных LLM в формальной доказательной математике

Diffusion-Proof — первый фреймворк для обучения и применения диффузионных языковых моделей в формальной доказательной математике. Он вводит dLLM-Prover-7B для написания полных доказательств с долгосрочной согласованностью и dLLM-Corrector-7- для локальной коррекции доказательств с использованием обратной информации. Фреймворк превосходит автокоррекционные базовые LLM на 1,61% на ProofNet-Test и на 6,14% на MiniF2F-Test, и решает задачу IMO за пределами возможностей DeepSeek-Prover-V2-7B.

arxiv arXiv cs.LG · 7 д назад

Skill-MAS: Эволюционная метанавык для автоматических систем многоагентов

Skill-MAS вводит новый подход, который разделяет сохранение опыта от параметрических обновлений, моделируя оркестрацию как эволюционную метанавык. Он использует замкнутый процесс, включающий многотраекторные развертывания и селективное отражение, чтобы выделить повторно используемые принципы стратегии, обеспечивая значительные улучшения производительности и устойчивость при переносе на задачи и LLMs.