Все статьи — korshunov.ai

Все статьи Страница 1 / 96

DeepRubric: Эффективная RL для агентов глубокого исследования

DeepRubric представляет рамку построения данных, которая создает пары запрос-оценочный критерий, начиная с определения верифицируемых целей оценки через дерево доказательств. Оно генерирует 9K примеров надзора и обучает модель размером 8B с использованием GRPO, достигая производительности, сравнимой с лучшими моделями, при использовании в 13 раз меньшего количества часов GPU для RL.

arxiv arXiv cs.CL · 10 д назад

KVEraser: Эффективное локализованное удаление контекста в LLMs

KVEraser обеспечивает эффективное локализованное удаление контекста в больших языковых моделях, заменяя только состояния кэша KV для удаленного сегмента на обученные направляющие состояния. Он достигает почти полной переработки производительности на задачах в области знаний при длинах контекста от 1K до 32K, с ростом задержки только на 24%, и превосходит другие приближенные методы при работе с длинными документами в вопросах и ответах, обеспечивая скорость в 3-4 раза превышающую полную переработку.

arxiv arXiv cs.CL · 10 д назад

MetaSyn: Оценка агентов ЛЛМ на статьях по мета-анализу

MetaSyn представляет датасет из 442 мета-анализов, экспертно отобранных из Nature Portfolio. Он оценивает двенадцать конфигураций агентов ЛЛМ и выявляет критическую точку в отборе исследований, где ни одна система не восстанавливает более 52,7% истинно включённых источников, несмотря на высокую точность поиска.

arxiv arXiv cs.CL · 10 д назад

ContextRL: контекстуально-оптимизированный RL для LLMs

ContextRL вводит косвенную вспомогательную цель для улучшения долгосрочного мышления и многомодальных характеристик в LLMs. Модель получает награду за выбор контекста, поддерживающего пару запрос-ответ, используя контрастные данные о контексте из траекторий кодирующих агентов и изображений, связанных с визуальными вопросами. ContextRL достигает роста на +2,2% и +1,8% по сравнению с стандартными методами на тестах долгосрочного мышления и визуальных вопросов, причём рост объясняется выбором цели, а не дополнением данных.

arxiv arXiv cs.CL · 10 д назад

Языковые модели кодируют значение своей текущей траектории

Qwen3-8B внутренне отслеживает значение своей текущей траектории, определяемой как вероятность достижения своих целей. Эта "ось значения" различает уровни уверенности, поведение отката и корректность кода, и демонстрирует, что оптимизация предпочтений повышает уверенность в премиированных действиях. Модель присваивает низкое значение политически чувствительным запросам после обучения, а финальная настройка повышает уверенность в определённых областях.

DeepRubric: Эффективная RL для агентов глубокого исследования

KVEraser: Эффективное локализованное удаление контекста в LLMs

MetaSyn: Оценка агентов ЛЛМ на статьях по мета-анализу

ContextRL: контекстуально-оптимизированный RL для LLMs

Языковые модели кодируют значение своей текущей траектории

Символическая неформализация в проекте Informath

Семантический отражение: синтез образцов за пределами распределения для устойчивого отказа

BinTrack: Открытый источник спектральный QA с двоичным поиском траектории

Опубликовано множество данных IMPACTeen в английской и польской версиях

Голод учится: зависимость от каналов вознаграждения в ИИ

Разброс в открытии схем LLM: причины и меры по устранению

MA-SBI: калибровка-безопасный SBI через направление стороннего канала

RAID: Семантическое графовое диффузионное моделирование для истинного холодного запуска и межязыкового прогнозирования

Единая кausal-оригин топология для сдвигов распределения в RL

CrossMaps: Семантическая картирование с учетом уверенности для навигации ровера

CircuitLasso: масштабируемый метод обучения разреженных схем для интерпретируемости больших языковых моделей

Каузальная модель теории разума в конфликте ИИ

Каузальный фреймворк для аудита раскрытий синтетических данных

Низкая частота кадров в нейронных аудиокодеках

Текстовые отзывы имеют ограниченное влияние в рекомендательных моделях