Лаборатория · OpenAI
arxiv arXiv cs.LG · 10 д назад

Определение поведения агентов через процедуры траекторий

Мы предлагаем метод идентификации агентов по их поведенческим отпечаткам, достигающий точности 85,7% при присвоении неизвестных траекторий правильным агентам. Используя ProcGrep, мы анализируем поведение кодирующих агентов в SWE-Bench, и находим, что модели из схожих периодов выпуска или distilled друг от друга демонстрируют более близкую поведенческую схожесть, с показателем дивергенции Дженсена-Шанна 0,25.

arxiv arXiv cs.LG · 10 д назад

ActiveSAM: Быстрый и точный открытие-словарный сегментация

ActiveSAM — это рамка без обучения, нулевого шаблона, которая улучшает SAM 3 для открытие-словарного семантического сегментирования за счет определения активного класса, зависящего от изображения. Оно улучшает компромисс между скоростью и точностью, превосходя SegEarth-OV3 на +1,4 mIoU в среднем и работает на 5,5 раз быстрее на больших словарях, при этом обладая сильной устойчивостью к искажениям изображений.

arxiv arXiv cs.LG · 10 д назад

ExpRL: Исследовательская RL для среднего обучения LLM

ExpRL вводит новую методику среднего обучения для LLM, используя данные вопрос-ответ, написанные людьми, как основу вознаграждения. Вместо имитации ссылочных решений, она строит специфические для задачи критерии оценки для вознаграждения промежуточных шагов рассуждения, что позволяет лучше инициализировать спарсенные вознаграждения RL и превосходить SFT, спарсенный GRPO и самодистилляцию на задачах математического мышления.

arxiv arXiv cs.LG · 10 д назад

PACT: Делегирование малого языкового модели для реактивного обучения с подкреплением

PACT объединяет реактивную политику обучения с подкреплением с малой языковой моделью на 2 миллиона параметров для генерации и проверки планов действий. План от малой языковой модели выполняется напрямую, если он подтверждается в симуляции, без необходимости возвращаться к политике обучения с подкреплением и переподготовки. PACT превосходит базовые методы на трёх всё более сложных средах FrozenLake.

arxiv arXiv cs.LG · 10 д назад

TokenPilot: Эффективное управление контекстом для агентов LLM

TokenPilot снижает расходы на инференс на 61% до 87% как в изолированном, так и в непрерывном режимах, превосходя предыдущие системы по эффективности расходов, при этом сохраняя конкурентную производительность. Оно использует сжатие, учитывающее ввод, и эвакуацию, учитывающую жизненный цикл, для стабилизации промптов и эффективного управления сегментами контекста.