Reasoning models — korshunov.ai

Тема · Reasoning models

Мы предлагаем метод идентификации агентов по их поведенческим отпечаткам, достигающий точности 85,7% при присвоении неизвестных траекторий правильным агентам. Используя ProcGrep, мы анализируем поведение кодирующих агентов в SWE-Bench, и находим, что модели из схожих периодов выпуска или distilled друг от друга демонстрируют более близкую поведенческую схожесть, с показателем дивергенции Дженсена-Шанна 0,25.

Определение поведения агентов через процедуры траекторий

ActiveSAM: Быстрый и точный открытие-словарный сегментация

ROVE: обучение с помощью вмешательств человека для манипуляции робота-человека

ExpRL: Исследовательская RL для среднего обучения LLM

HABC улучшает RL-настройку VLAs с разреженными результатами

Геометрическая модель действий для обучения политик роботов

HalBench проверяет 29 открытых моделей на сикофантизм и халлюцинации

Факторизованные нейронные операторы разбивают динамические и устойчивые реакции

CEAP снижает дисперсию в открытии циркуитов в LLM

Адаптивный функциональный градиентный спуск с гарантиями сходимости

Единая кausalная классификация источников смещений распределений в RL

Ключевые свойства для эффективного рассуждения код-интерпретатора

CrossMaps: Семантическая картирование с учетом уверенности для навигации ровера

CircuitLasso: масштабируемое обучение схем для интерпретируемости LLM

Метод резидуального обучения с использованием направляющего контроля ошибки для балансировки пяти шаров на реальных роботах

PACT: Делегирование малого языкового модели для реактивного обучения с подкреплением

Фаза в нейронных представлениях: внутренний тест Оппенгейма-Лима

Точная оценка постериорного скоора для линейных обратных задач

Гибридная конволюционная VAE для криптовалютных поверхностей волатильности

Dynestyx: Вероятностное программирование для динамических систем