Лаборатория · OpenAI
arxiv arXiv cs.AI · 7 д назад

OneCanvas: Понимание 3D-сцены через перепроекцию панорамы

OneCanvas обеспечивает понимание 3D-сцены в моделях Вид-Язык путем агрегирования признаков кусков на панорамной панели с использованием координат 3D-мира. Оно достигает лучших результатов на SQA3D и VSI-Bench, с сильной обобщаемостью на SPBench, используя значительно меньшее количество вычислений на обучении по сравнению с предыдущими методами.

arxiv arXiv cs.AI · 7 д назад

Агенты интеллектуального анализа данных обеспечивают автономный запрос данных

Агенты интеллектуального анализа данных (DIA) развертывают автономных агентов программирования для оптимизации рабочих процессов с данными в корпоративной среде. Генератор запросов достигает или превосходит лучшие публикуемые результаты на семи бенчмарках SQL по четырём синтаксисам, демонстрируя обобщение через естественные инструкции и архитектуру выполнения запросов.

arxiv arXiv cs.AI · 7 д назад

ScenA: Система генерации аудио-сцены на основе ссылок

ScenA настраивает текстово-аудио модель на основе нескольких ссылочных голосов и естественного языкового запроса сцены для генерации реалистичных разговоров с несколькими участниками. Она решает проблему "сокращения ссылки" за счёт использования тренировочного расписания с высоким уровнем шума, обеспечивая привязку голосов на основе текстовых запросов, а не на основе акустической схожести. Оценка на CoVoMix2-Dialogue показывает, что ScenA превосходит существующие системы по привязке участников и генерирует богатые, естественные аудио-сцены с перекрывающимися речевыми фрагментами и фоновым шумом.

arxiv arXiv cs.AI · 7 д назад

Кадрово-условная самодистилляция

Кадрово-условная самодистилляция представляет собой рамку, которая использует структурированные критерии для предоставления детализированных, уровня токена обратной связи во время самодистилляции рациональных языковых моделей. При условии учитывания учителей на уровне критериев кадров, достигается более точное присвоение кредитов по сравнению с скалярными вознаграждениями, превосходя GRPO и OPSD на 1,0 и 0,9 пунктов в среднем по научным рациональным тестам.

arxiv arXiv cs.CL · 7 д назад

Кадрово-условная самодистилляция

Кадрово-условная самодистилляция представляет собой рамку, которая использует структурированные критерии для предоставления детализированного, уровня токена обратной связи во время самодистилляции рациональных языковых моделей. С использованием условий для учителей на уровне критериев кадров, достигается более точное назначение кредитов, чем скалярные вознаграждения, и превосходит GRPO и OPSD на 1,0 и 0,9 пунктов в среднем по наукоемким тестам на рациональность.

arxiv arXiv cs.CL · 7 д назад

Turing-RL: обучение имитаторов пользователей с вознаграждениями Тьюринга

Turing-RL представляет метод обучения с помощью подкрепления, использующий LLM-оценщик для оценки степени неразличимости сгенерированных ответов от реальных вводов пользователей. Метод превосходит базовые подходы как в оценках LLM, так и в оценках людей в областях чатов и форумов Reddit, демонстрируя, что оптимизация по неразличимости улучшает производительность имитаторов пользователей.

arxiv arXiv cs.CL · 7 д назад

OmniAgent: интегрированная активная восприятие для многомодального понимания

OmniAgent вводит итеративный цикл наблюдения-мысли-действия на основе POMDP для понимания видео, позволяя выполнять действия по требованию и селективно выделять аудиовизуальные сигналы в постоянную текстовую память. Он достигает передовых результатов на десяти бенчмарках, при этом агент на 7 миллиардов параметров превосходит модель Qwen2.5-VL-72B на 10 раз по размеру на LVBench (50,5% против 47,3%).

arxiv arXiv cs.LG · 7 д назад

TAPO: Самодистилляция с микросоответствующими траекториями

TAPO продвигает самодистилляцию за счёт построения явных микросоответствующих траекторий, которые сохраняют ошибочные рассуждения и включают диагностики на естественном языке. Эти траектории, полученные из правильных и неправильных развертываний модели, обеспечивают тонкие исправления ошибок, основанные на собственных рассуждениях модели, что улучшает как первоначальное рассуждение, так и исправление ошибок по сравнению с GRPO.

arxiv arXiv cs.LG · 7 д назад

REVES: Усиленное обучение для масштабирования на этапе тестирования

REVES представляет двухэтапную итерационную структуру, которая улучшает логическое мышление больших языковых моделей за счёт последовательного пересмотра и проверки. Метод достигает +6,5 баллов по сравнению с базовыми RL и +4,0 баллов по сравнению с стандартным многократным обучением на LiveCodeBench, используя базовую модель размером 4B и меньшее количество итераций, чем большие эволюционные системы. Метод улучшает исправление ошибок и обобщается на задачи за пределами распределения, такие как n_queens и mini_sudoku.

arxiv arXiv cs.LG · 7 д назад

Неподготовленная оптимизация вознаграждения для языковых моделей белков

Новый фреймворк позволяет языковым моделям белков генерировать управляемые последовательности белков без обучающих данных или проверки в лаборатории. Он использует вознаграждения, не зависящие от задачи, основанные на неопределённости модели и семантической согласованности, для направления генерации, при этом Soft и бинаризованная оптимизация вознаграждения превосходят базовые методы по охвату и управляемости в различных условиях.

arxiv arXiv cs.LG · 7 д назад

EfficientRollout: Системно-осознанная самоспекулятивная декодировка для RL-роллов

EfficientRollout представляет самоспекулятивную декодирующую систему, которая снижает задержку рулл-оута и задержку в конце до 19,6% и 12,7% соответственно, не ухудшая итогальную качество модели. Она использует квантованный драфтер, полученный из целевой модели, и интегрирует системно-осознанную политику переключения, чтобы избежать режимов высокой вычислительной нагрузки, обеспечивая эффективную спекуляцию во время эволюции политики.

arxiv arXiv cs.LG · 7 д назад

ViGOS: Разделение восприятия и рассуждения в многомодальных на-политических самодистилляциях

ViGOS представляет визуально обоснованную на-политическую самодистилляционную рамку для многомодальных больших языковых моделей. Она разделяет восприятие и рассуждение, используя визуальный учитель для визуальных описаний и учитель для конечных выводов, что снижает зависимость от текстовых ссылок. Этот подход улучшает визуально обоснованную производительность на нескольких бенчмарках визуально-языковых моделей.

arxiv arXiv cs.CL · 7 д назад

Неправильная синхронизация в больших языковых моделях: количественное исследование

Новое исследование представляет VETO — бенчмарк из 2032 пар контрастных примеров, полученных из BBQ, для количественной оценки неправильной синхронизации в больших языковых моделях. В нем определяется коэффициент неправильной синхронизации (MAR) и показывает, что все проверенные большие языковые модели демонстрируют значения MAR от 4,7% до 18,9%, в то время как люди достигают 0%. Исследование показывает, что сигналы синхронизации могут усиливать эти сбои, и доказательства подавления происходят в поздних слоях моделей и появляются после тренировки по инструкциям.

arxiv arXiv cs.CL · 7 д назад

Сети с раздраженной синхронизацией превосходят трансформеры

Сети с раздраженной синхронизацией (FSN) достигают более низкой ошибки валидации, чем трансформер с RoPE-SwiGLU на уровне символов и задачах по коду на каждом эпохе. При одном миллионе параметров FSN достигает ошибки валидации 1,5953 ± 0,0014, что превосходит достигнутую ошибку трансформера 1,611. Это преимущество сохраняется до четырёх миллионов параметров, при этом продолжаются оценки на более высоких масштабах.

arxiv arXiv cs.CL · 7 д назад

Редактирование вектора выхода снижает запоминание в языковых моделях

Новая методика, называемая редактированием вектора выхода, минимально изменяет векторы выхода нейронов MLP для подавления запомненных последовательностей в больших языковых моделях, достигая до 87,9% подавления в OLMo-7B. Этот подход превосходит нулевое изменение активаций нейронов в 2,7 раза и работает на четырех моделях с параметрами от 36 до 7B, при этом эффективность растет с увеличением размера модели и демонстрирует стабильную производительность при различных архитектурах.

arxiv arXiv cs.CL · 7 д назад

HandwritingAgent: синтез ручного почерка на основе языка в SVG

HandwritingAgent синтезирует естественный ручной почерк в формате SVG без специфического обучения стилю. Он использует большой модельный рациональный процесс для генерации последовательностей линий на сетке холста, с учетом текстового ввода и образца стиля, обеспечивая эффективное, управляемое и обобщаемое генерирование почерка.

arxiv arXiv cs.CL · 7 д назад

REVES: Усиленное обучение для масштабирования на этапе тестирования

REVES представляет двухэтапную итерационную структуру, которая улучшает логическое мышление больших языковых моделей за счёт последовательного редактирования и проверки. Метод достигает +6,5 баллов по сравнению с базовыми RL и +4,0 балла по сравнению с стандартным многократным обучением на LiveCodeBench, используя базовую модель размером 4B и меньшее количество итераций по сравнению с более крупными системами. Метод улучшает исправление ошибок и обобщается на задачи вне распределения, такие как n_queens и mini_sudoku.

arxiv arXiv cs.CL · 7 д назад

Разделение поиска от рассуждений в агентах на основе языковых моделей

Разделенный поисковый фундамент (DSG) отделяет функциональность поиска от моделей рассуждений, обеспечивая вендор-независимый, настраиваемый и повторно используемый поисковый фундамент. DSG достигает почти естественной точности на SimpleQA с 91% меньшими затратами на поиск и 99,4% частотой попадания в тёплую кэш-память, одновременно снижая задержку на 68% и сохраняя краткие контракты выходных данных.

arxiv arXiv cs.CL · 7 д назад

GraphPO: графовая оптимизация политики для моделей рассуждения

GraphPO вводит направленную ациклическую графовую структуру для представления рассуждений, объединяя семантически эквивалентные пути для снижения избыточного исследования. Оно присваивает эффективность и корректность к рёбрам, улучшая эффективность инференса и надзор за процессом, одновременно снижая дисперсию оценки преимуществ. Эксперименты показывают, что GraphPO превосходит методы на основе цепей и деревьев на трёх моделях языковых моделей по задачам рассуждения и агентского поиска при одинаковых объёмах токенов или ответов.

arxiv arXiv cs.AI · 7 д назад

Самоусловленное присвоение кредитов для RL с подтверждаемыми вознаграждениями

SC-GRPO использует разность КЛ на уровне токена из самоусловленных траекторий для взвешивания градиентов в обучении с участием вознаграждений. Он превосходит GRPO на 8,1% и DAPO на 5,9% при выполнении задач по математике, программированию и агентским задачам, демонстрируя превосходную производительность при работе с распределениями, отличающимися от обучающих, и лучшие результаты по сравнению с OPD.