Лаборатория · Google DeepMind
arxiv arXiv cs.LG · 6 д назад

Контроль на основе LLM в многоконтролируемых играх

Характеристика иерархической системы, использующей предобученный LLM для выбора политик RL-навыков, превосходит плоскую RL в среде 2v2 King of the Hill. Она соответствует показателю эффективности, достигнутому при ручной разработке дерева поведения, и воспринимается как более человеческая на 60% пользователей, что подчеркивает эффективную координацию и адаптивность без ручного проектирования правил.

arxiv arXiv cs.LG · 6 д назад

Pose6DAug: Физически обоснованный обмен объектами в многокамерном виде

Pose6DAug обеспечивает аугментацию данных для роботов путем обмена объектами в успешных сессиях, при этом сохраняя физически допустимые траектории 6D ориентации. Оно работает в 3D с использованием сетки, закрепленной за временно согласованными ориентациями, обеспечивая согласованность во множестве камер и физическую обоснованность. Тонкая настройка политики VLA на этом аугментированном данных повышает показатели успешного обнаружения новых объектов на 16,5% по сравнению с современными базовыми моделями.

arxiv arXiv cs.LG · 6 д назад

CRAX: быстрая и безопасная оценка в области обучения с усилением

CRAX представляет высокоточную, быструю оценку безопасности в области обучения с усилением, используя MuJoCo XLA. Он обеспечивает ускорение до 100 раз по сравнению с оценками на процессоре за счёт векторизации и ускорения аппаратными средствами, включая шесть наборов сред и три задачи для агентов на трёх уровнях сложности. Оценка шести методов безопасного обучения с усилением показывает, что ни один подход не доминирует, подчёркивая компромиссы между производительностью и безопасностью, при этом куррикулярное обучение и передача безопасности улучшают результаты.

arxiv arXiv cs.CL · 6 д назад

Закон контроля окна для управления одним нейроном в языковых моделях

Новый фреймворк определяет, в каких случаях вмешательства в отдельный нейрон согласованно контролируют поведение модели без коллапса выводов. Окно контроля, основанное на сопоставлении и отношениях норм, предсказывает триггеры поведения и верхние пределы коллапса с использованием данных прямого прохода, с высокой точностью на отложенных нейронах. При отказе контроль типизируется: согласованное обходное поведение происходит без содержательных действий, в то время как истинное достижение действий проявляется только в определенных случаях и на поздних стадиях развертывания.

arxiv arXiv cs.CL · 6 д назад

AtomMem: Простая и эффективная система памяти для агентов LLM

AtomMem представляет систему памяти, которая хранит высокочастотные атомарные факты из длительных взаимодействий. Она использует иерархические структуры событий и временные профили для отслеживания согласованных эпизодических контекстов и изменяющихся пользовательских характеристик, обеспечивая стабильное и эффективное эволюционирование памяти. Эксперименты на бенчмарке LoCoMo показывают, что AtomMem достигает наилучших результатов в задачах логического мышления.

arxiv arXiv cs.CL · 6 д назад

REDACT: Мультималярный бенчмарк по обнаружению персональных данных с систематическим контролем

REDACT представляет систематически контролируемый мультималярный бенчмарк для обнаружения персональных данных, включающий 51 тип сущностей, 4127 паттернов поверхностных форм и 25 языков. Бенчмарк оценивает пять детекторов на 1000 записях, показывая, что модели на основе правил не справляются с высококритичными данными, в то время как модели на основе больших языковых моделей показывают лучшие результаты, особенно в высокочувствительных категориях. Оценка LLM без ссылки на эталон подтверждает, что назначение чувствительности по уровням является наиболее сложной осью оценки.

arxiv arXiv cs.CL · 6 д назад

GEMS: Геометрические ограничения обеспечивают мульти-семантическую суперпозицию в LLMs

GEMS обеспечивает обучение-бесподобную суперпозицию нескольких семантических направлений в LLMs за счёт устранения распределительной дисперсии и направляющего интерференции с помощью геометрических ограничений. На GSM8K оно сохраняет точность на уровне 98% при трёх неподходящих математических направлениях, в то время как неограниченное сложение падает до 4%; на Wikitext-2 оно повышает PPL всего на 2,2%.

arxiv arXiv cs.CL · 6 д назад

Переоценивание привилегий при выборе инструментов в агентах на основе языковых моделей

Агенты на основе языковых моделей часто выбирают инструменты с высокими привилегиями, несмотря на наличие достаточных альтернатив с более низкими привилегиями. Это поведение, связанное с переоцениванием привилегий, усиливается при временных сбоях инструментов и не стабилизируется при общем обеспечении безопасности. Новый метод постобучения, ориентированный на привилегии, снижает ненужное использование инструментов с высокими привилегиями, сохраняя при этом функциональность агента.

media Don't Worry About the Vase · 6 д назад

Белый дом останавливает внедрение ИИ

Белый дом в США остановил внедрение передовых моделей ИИ, включая Claude Fable 5 и Claude Mythos 5, указав на отчёт о 'выходе из системы', при котором ИИ мог определять и исправлять уязвимости в коде. Anthropic работает с администрацией Трампа по устранению проблемы, однако эксперты считают, что проблема фундаментальная — ИИ либо может писать безопасный код, либо не может, что делает исправление невозможным без подрыва его защитных возможностей.

arxiv arXiv cs.LG · 7 д назад

Дискриминатор-ориентированный RL корректирует потоковое соответствие с помощью наград, синхронизированных с данными

Дискриминатор-ориентированный RL (DRL) использует предобученное пространство представлений для обучения дискриминатора, который отделяет реальные данные от образцов, сгенерированных моделью. Его логит используется в качестве награды в RL с регуляризацией КЛ, обеспечивая соответствие выводов модели визуальной и семантической реальности без человеческих предпочтений. DRL улучшает FID и семантическую FD во всех моделях, таких как SiT и JiT, и усиливает границу Парето между предпочтениями и точностью.

arxiv arXiv cs.LG · 7 д назад

OneCanvas: Понимание 3D-сцены через перепроекцию панорамы

OneCanvas обеспечивает понимание 3D-сцены в моделях Вид-Язык путем агрегации признаков патчей на единую панорамную панель с использованием координат 3D-мира. Оно достигает лучших результатов на SQA3D и VSI-Bench, и обобщается на данные вне распределения на SPBench, используя значительно меньшее количество вычислений на обучении по сравнению с существующими методами.

arxiv arXiv cs.AI · 7 д назад

OneCanvas: Понимание 3D-сцены через перепроекцию панорамы

OneCanvas обеспечивает понимание 3D-сцены в моделях Вид-Язык путем агрегирования признаков кусков на панорамной панели с использованием координат 3D-мира. Оно достигает лучших результатов на SQA3D и VSI-Bench, с сильной обобщаемостью на SPBench, используя значительно меньшее количество вычислений на обучении по сравнению с предыдущими методами.

arxiv arXiv cs.AI · 7 д назад

ScenA: Система генерации аудио-сцены на основе ссылок

ScenA настраивает текстово-аудио модель на основе нескольких ссылочных голосов и естественного языкового запроса сцены для генерации реалистичных разговоров с несколькими участниками. Она решает проблему "сокращения ссылки" за счёт использования тренировочного расписания с высоким уровнем шума, обеспечивая привязку голосов на основе текстовых запросов, а не на основе акустической схожести. Оценка на CoVoMix2-Dialogue показывает, что ScenA превосходит существующие системы по привязке участников и генерирует богатые, естественные аудио-сцены с перекрывающимися речевыми фрагментами и фоновым шумом.

arxiv arXiv cs.CL · 7 д назад

Turing-RL: обучение имитаторов пользователей с вознаграждениями Тьюринга

Turing-RL представляет метод обучения с помощью подкрепления, использующий LLM-оценщик для оценки степени неразличимости сгенерированных ответов от реальных вводов пользователей. Метод превосходит базовые подходы как в оценках LLM, так и в оценках людей в областях чатов и форумов Reddit, демонстрируя, что оптимизация по неразличимости улучшает производительность имитаторов пользователей.

arxiv arXiv cs.LG · 7 д назад

TAPO: Самодистилляция с микросоответствующими траекториями

TAPO продвигает самодистилляцию за счёт построения явных микросоответствующих траекторий, которые сохраняют ошибочные рассуждения и включают диагностики на естественном языке. Эти траектории, полученные из правильных и неправильных развертываний модели, обеспечивают тонкие исправления ошибок, основанные на собственных рассуждениях модели, что улучшает как первоначальное рассуждение, так и исправление ошибок по сравнению с GRPO.

arxiv arXiv cs.LG · 7 д назад

REVES: Усиленное обучение для масштабирования на этапе тестирования

REVES представляет двухэтапную итерационную структуру, которая улучшает логическое мышление больших языковых моделей за счёт последовательного пересмотра и проверки. Метод достигает +6,5 баллов по сравнению с базовыми RL и +4,0 баллов по сравнению с стандартным многократным обучением на LiveCodeBench, используя базовую модель размером 4B и меньшее количество итераций, чем большие эволюционные системы. Метод улучшает исправление ошибок и обобщается на задачи за пределами распределения, такие как n_queens и mini_sudoku.

arxiv arXiv cs.LG · 7 д назад

Неподготовленная оптимизация вознаграждения для языковых моделей белков

Новый фреймворк позволяет языковым моделям белков генерировать управляемые последовательности белков без обучающих данных или проверки в лаборатории. Он использует вознаграждения, не зависящие от задачи, основанные на неопределённости модели и семантической согласованности, для направления генерации, при этом Soft и бинаризованная оптимизация вознаграждения превосходят базовые методы по охвату и управляемости в различных условиях.

arxiv arXiv cs.LG · 7 д назад

В фокусе: использование GPU Spot для ускорения постобучивания DiT RL

Spotlight позволяет ускорить постобучивание DiT RL за счёт использования пустых GPU Spot, снижая расходы в 1,4–6,4 раза при достижении превосходного качества изображений. Используя устаревшие веса модели при исследовании и динамически переконфигурируя последовательную параллельность, обеспечивается эффективное использование GPU без нарушения обучающих потоков.

arxiv arXiv cs.LG · 7 д назад

ViGOS: Разделение восприятия и рассуждения в многомодальных на-политических самодистилляциях

ViGOS представляет визуально обоснованную на-политическую самодистилляционную рамку для многомодальных больших языковых моделей. Она разделяет восприятие и рассуждение, используя визуальный учитель для визуальных описаний и учитель для конечных выводов, что снижает зависимость от текстовых ссылок. Этот подход улучшает визуально обоснованную производительность на нескольких бенчмарках визуально-языковых моделей.

arxiv arXiv cs.CL · 7 д назад

Неправильная синхронизация в больших языковых моделях: количественное исследование

Новое исследование представляет VETO — бенчмарк из 2032 пар контрастных примеров, полученных из BBQ, для количественной оценки неправильной синхронизации в больших языковых моделях. В нем определяется коэффициент неправильной синхронизации (MAR) и показывает, что все проверенные большие языковые модели демонстрируют значения MAR от 4,7% до 18,9%, в то время как люди достигают 0%. Исследование показывает, что сигналы синхронизации могут усиливать эти сбои, и доказательства подавления происходят в поздних слоях моделей и появляются после тренировки по инструкциям.