Reasoning models — korshunov.ai

Reasoning models Страница 20 / 35

Многоканальный фиктивный ход для принятия решений с вовлечением позиций

Новая многоканальная система, Многоканальный фиктивный ход (MAFP), решает проблему вовлечения позиций при принятии решений, моделируя точки зрения участников как агентов. MAFP использует теоретико-игровой фиктивный ход для итеративного улучшения решений через взаимные лучшие ответы, превосходя базовые методы по силе и устойчивости в конкурирующих сценариях.

arxiv arXiv cs.CL · 8 д назад

Кадрово-условная самодистилляция

Кадрово-условная самодистилляция представляет собой рамку, которая использует структурированные критерии для предоставления детализированного, уровня токена обратной связи во время самодистилляции рациональных языковых моделей. С использованием условий для учителей на уровне критериев кадров, достигается более точное назначение кредитов, чем скалярные вознаграждения, и превосходит GRPO и OPSD на 1,0 и 0,9 пунктов в среднем по наукоемким тестам на рациональность.

arxiv arXiv cs.CL · 8 д назад

Turing-RL: обучение имитаторов пользователей с вознаграждениями Тьюринга

Turing-RL представляет метод обучения с помощью подкрепления, использующий LLM-оценщик для оценки степени неразличимости сгенерированных ответов от реальных вводов пользователей. Метод превосходит базовые подходы как в оценках LLM, так и в оценках людей в областях чатов и форумов Reddit, демонстрируя, что оптимизация по неразличимости улучшает производительность имитаторов пользователей.

arxiv arXiv cs.CL · 8 д назад

OmniAgent: интегрированная активная восприятие для многомодального понимания

OmniAgent вводит итеративный цикл наблюдения-мысли-действия на основе POMDP для понимания видео, позволяя выполнять действия по требованию и селективно выделять аудиовизуальные сигналы в постоянную текстовую память. Он достигает передовых результатов на десяти бенчмарках, при этом агент на 7 миллиардов параметров превосходит модель Qwen2.5-VL-72B на 10 раз по размеру на LVBench (50,5% против 47,3%).

Многоканальный фиктивный ход для принятия решений с вовлечением позиций

Кадрово-условная самодистилляция

Turing-RL: обучение имитаторов пользователей с вознаграждениями Тьюринга

OmniAgent: интегрированная активная восприятие для многомодального понимания

Семи-наблюдаемое кластерное моделирование с использованием а-контра-аномалии

Skill-MAS: Эволюционная метанавык для автоматических систем многоагентов

Семантическая устойчивость сертификации для моделей визуально-языковых

TAPO: Самодистилляция с микросоответствующими траекториями

Приближенная структурированная диффузия для последовательной аннотации

Индуктивные предвзятости в машинном обучении при эмуляции резких охлаждений стратосферы

Кадр-СМ: Фреймворк для оценки неопределенности в медицинской сегментации изображений

Выбор признаков и регуляризация Риджа в стратегической классификации

Нейронные сети с учетом сдвига домена для оценки несбалансированной массы

Латентные СДЭ для обнаружения аномалий в редких многомерных временных рядах

REVES: Усиленное обучение для масштабирования на этапе тестирования

Результаты сложности для устойчивости проверки бинаризированных нейронных сетей

Нулевая активная акустическая получение признаков через эlicitацию LLM

Неподготовленная оптимизация вознаграждения для языковых моделей белков

Обучение без вознаграждения на визуальных потоках

EfficientRollout: Системно-осознанная самоспекулятивная декодировка для RL-роллов