Все статьи — korshunov.ai

Все статьи Страница 1 / 95

ContextRL: контекстуально-оптимизированный RL для LLMs

ContextRL вводит косвенную вспомогательную цель для улучшения долгосрочного мышления и многомодальных характеристик в LLMs. Модель получает награду за выбор контекста, поддерживающего пару запрос-ответ, используя контрастные данные о контексте из траекторий кодирующих агентов и изображений, связанных с визуальными вопросами. ContextRL достигает роста на +2,2% и +1,8% по сравнению с стандартными методами на тестах долгосрочного мышления и визуальных вопросов, причём рост объясняется выбором цели, а не дополнением данных.

arxiv arXiv cs.CL · 10 д назад

Языковые модели кодируют значение своей текущей траектории

Qwen3-8B внутренне отслеживает значение своей текущей траектории, определяемой как вероятность достижения своих целей. Эта "ось значения" различает уровни уверенности, поведение отката и корректность кода, и демонстрирует, что оптимизация предпочтений повышает уверенность в премиированных действиях. Модель присваивает низкое значение политически чувствительным запросам после обучения, а финальная настройка повышает уверенность в определённых областях.

ContextRL: контекстуально-оптимизированный RL для LLMs

Языковые модели кодируют значение своей текущей траектории

Символическая неформализация в проекте Informath

Семантический отражение: синтез образцов за пределами распределения для устойчивого отказа

BinTrack: Открытый источник спектральный QA с двоичным поиском траектории

Опубликовано множество данных IMPACTeen в английской и польской версиях

Голод учится: зависимость от каналов вознаграждения в ИИ

Разброс в открытии схем LLM: причины и меры по устранению

MA-SBI: калибровка-безопасный SBI через направление стороннего канала

RAID: Семантическое графовое диффузионное моделирование для истинного холодного запуска и межязыкового прогнозирования

Единая кausal-оригин топология для сдвигов распределения в RL

CrossMaps: Семантическая картирование с учетом уверенности для навигации ровера

CircuitLasso: масштабируемый метод обучения разреженных схем для интерпретируемости больших языковых моделей

Каузальная модель теории разума в конфликте ИИ

Каузальный фреймворк для аудита раскрытий синтетических данных

Низкая частота кадров в нейронных аудиокодеках

Текстовые отзывы имеют ограниченное влияние в рекомендательных моделях

Документация по исследованию ИИ улучшается в течение десятилетия

Фреймворк агентного LLM для классификации кодов HTS

Прогресс, обусловленный ИИ, в стабильных меню общественных благ