Reasoning models
arxiv arXiv cs.CL · 8 д назад

Многоканальный фиктивный ход для принятия решений с вовлечением позиций

Новая многоканальная система, Многоканальный фиктивный ход (MAFP), решает проблему вовлечения позиций при принятии решений, моделируя точки зрения участников как агентов. MAFP использует теоретико-игровой фиктивный ход для итеративного улучшения решений через взаимные лучшие ответы, превосходя базовые методы по силе и устойчивости в конкурирующих сценариях.

arxiv arXiv cs.CL · 8 д назад

Кадрово-условная самодистилляция

Кадрово-условная самодистилляция представляет собой рамку, которая использует структурированные критерии для предоставления детализированного, уровня токена обратной связи во время самодистилляции рациональных языковых моделей. С использованием условий для учителей на уровне критериев кадров, достигается более точное назначение кредитов, чем скалярные вознаграждения, и превосходит GRPO и OPSD на 1,0 и 0,9 пунктов в среднем по наукоемким тестам на рациональность.

arxiv arXiv cs.CL · 8 д назад

Turing-RL: обучение имитаторов пользователей с вознаграждениями Тьюринга

Turing-RL представляет метод обучения с помощью подкрепления, использующий LLM-оценщик для оценки степени неразличимости сгенерированных ответов от реальных вводов пользователей. Метод превосходит базовые подходы как в оценках LLM, так и в оценках людей в областях чатов и форумов Reddit, демонстрируя, что оптимизация по неразличимости улучшает производительность имитаторов пользователей.

arxiv arXiv cs.CL · 8 д назад

OmniAgent: интегрированная активная восприятие для многомодального понимания

OmniAgent вводит итеративный цикл наблюдения-мысли-действия на основе POMDP для понимания видео, позволяя выполнять действия по требованию и селективно выделять аудиовизуальные сигналы в постоянную текстовую память. Он достигает передовых результатов на десяти бенчмарках, при этом агент на 7 миллиардов параметров превосходит модель Qwen2.5-VL-72B на 10 раз по размеру на LVBench (50,5% против 47,3%).

arxiv arXiv cs.LG · 8 д назад

Семи-наблюдаемое кластерное моделирование с использованием а-контра-аномалии

Новое кластерное решение использует а-контра-аномалию для определения кластеров как максимальных подмножеств без аномалий при нулевой гипотезе о случайности. Алгоритм Perception идентифицирует выбросы с использованием порога на основе ожидания (\mathbb{E} < 1), обеспечивая устойчивое кластерное моделирование без параметров, которое расширяется от минимальных исходных данных и эффективно справляется с шумом и появляющимися кластерами.

arxiv arXiv cs.LG · 8 д назад

Skill-MAS: Эволюционная метанавык для автоматических систем многоагентов

Skill-MAS вводит новый подход, который разделяет сохранение опыта от параметрических обновлений, моделируя оркестрацию как эволюционную метанавык. Он использует замкнутый процесс, включающий многотраекторные развертывания и селективное отражение, чтобы выделить повторно используемые принципы стратегии, обеспечивая значительные улучшения производительности и устойчивость при переносе на задачи и LLMs.

arxiv arXiv cs.LG · 8 д назад

Семантическая устойчивость сертификации для моделей визуально-языковых

В данной работе представлены методы, которые сертифицируют устойчивость моделей визуально-языковых к семантическим преобразованиям, используя текстовые запросы как прокси. Оно количественно определяет интервалы, в которых предсказания остаются неизменными, без необходимости дополнительных данных для каждой вариации. Эксперименты на синтетических и реальных данных демонстрируют его эффективность при различных семантических вариациях.

arxiv arXiv cs.LG · 8 д назад

TAPO: Самодистилляция с микросоответствующими траекториями

TAPO продвигает самодистилляцию за счёт построения явных микросоответствующих траекторий, которые сохраняют ошибочные рассуждения и включают диагностики на естественном языке. Эти траектории, полученные из правильных и неправильных развертываний модели, обеспечивают тонкие исправления ошибок, основанные на собственных рассуждениях модели, что улучшает как первоначальное рассуждение, так и исправление ошибок по сравнению с GRPO.

arxiv arXiv cs.LG · 8 д назад

Приближенная структурированная диффузия для последовательной аннотации

Новый метод использует диффузию для обучения CRF на полных последовательностях меток, с учетом шумных меток. При сочетании с приближенным инференсом ошибка в POS-аннотации снижается на 16,5%.

arxiv arXiv cs.LG · 8 д назад

Индуктивные предвзятости в машинном обучении при эмуляции резких охлаждений стратосферы

Исследование оценивает, как индуктивные предвзятости архитектуры влияют на способность машинного обучения эмулировать динамику резких охлаждений стратосферы в идеализированных симуляциях. Результаты показывают, что трехмерное вертикальное взаимодействие является ключевой индуктивной предвзятостью, при которой производительность моделей значительно деградирует во время активных вариаций, похожих на SSW. Однако низкая ошибка прогноза не гарантирует точность взаимодействий волн и среднего потока, поскольку остаются когерентные ошибки в структуре возбуждения волн в стратосфере.

arxiv arXiv cs.LG · 8 д назад

Кадр-СМ: Фреймворк для оценки неопределенности в медицинской сегментации изображений

QUAM-SM — это пост-обработочный фреймворк, который использует противоречивый поиск для выявления "противоречиво уязвимых" пикселей в медицинской сегментации изображений. Он разделяет эпистемическую и алеаторическую неопределенность и превосходит существующие методы по надежности и чувствительности к границам на публичных датасетах с экспертными аннотациями.

arxiv arXiv cs.LG · 8 д назад

Выбор признаков и регуляризация Риджа в стратегической классификации

Исследование показывает, что исключение признаков на основе только их манипулируемости является неоптимальным в стратегической классификации. В исследовании разрабатывается совместный алгоритм для выбора признаков и настройки регуляризации Риджа, предлагая практическую рамку для смягчения стратегической манипуляции в системах принятия решений в здравоохранении.

arxiv arXiv cs.LG · 8 д назад

Нейронные сети с учетом сдвига домена для оценки несбалансированной массы

Предлагается нейронная сеть с учетом сдвига домена для оценки несбалансированных масс на вращающихся шпиналях при изменяющихся режимах работы. Модель использует максимальное среднее отклонение для синхронизации представлений признаков между различными операционными доменами, повышая точность прогноза при том, что поведение системы отличается от условий обучения. Результаты показывают ее эффективность в приложениях мониторинга состояния конструкций, где сдвиги доменов неизвестны или не учитываются.

arxiv arXiv cs.LG · 8 д назад

Латентные СДЭ для обнаружения аномалий в редких многомерных временных рядах

Мы предлагаем генеративный метод с использованием латентных СДЭ для обнаружения аномалий в редких и нерегулярных многомерных временных рядах. Подход проецирует наблюдаемые данные на непрерывные стохастические системы, обеспечивая обработку пропущенных значений и нерегулярного отбора, при этом сохраняя циклические паттерны. Эксперименты на шести базовых наборах данных показывают, что наш метод достигает наилучших результатов, превосходя существующие базовые методы, особенно при высокой редкости данных.

arxiv arXiv cs.LG · 8 д назад

REVES: Усиленное обучение для масштабирования на этапе тестирования

REVES представляет двухэтапную итерационную структуру, которая улучшает логическое мышление больших языковых моделей за счёт последовательного пересмотра и проверки. Метод достигает +6,5 баллов по сравнению с базовыми RL и +4,0 баллов по сравнению с стандартным многократным обучением на LiveCodeBench, используя базовую модель размером 4B и меньшее количество итераций, чем большие эволюционные системы. Метод улучшает исправление ошибок и обобщается на задачи за пределами распределения, такие как n_queens и mini_sudoku.

arxiv arXiv cs.LG · 8 д назад

Результаты сложности для устойчивости проверки бинаризированных нейронных сетей

В статье доказывается, что насыщенность бинаризированных нейронных сетей является NP-полной при сведении к SAT. Также показывается, что однородная искажение изображения приводит к структуре выхода, являющейся разрывной функцией, что позволяет проводить проверку устойчивости за полиномиальное время.

arxiv arXiv cs.LG · 8 д назад

Нулевая активная акустическая получение признаков через эlicitацию LLM

Новый фреймворк позволяет осуществлять нулевое активное получение признаков, используя LLM для извлечения только дискриминативных статистик, таких как одиночные отклонения и парные ковариации. С помощью максимальной энтропийной закрытия решается неопределенность при выборе признаков и превосходит сам LLM, особенно в сложных случаях пациентов с ИБД, где уровень диагностической неопределенности высок.

arxiv arXiv cs.LG · 8 д назад

Неподготовленная оптимизация вознаграждения для языковых моделей белков

Новый фреймворк позволяет языковым моделям белков генерировать управляемые последовательности белков без обучающих данных или проверки в лаборатории. Он использует вознаграждения, не зависящие от задачи, основанные на неопределённости модели и семантической согласованности, для направления генерации, при этом Soft и бинаризованная оптимизация вознаграждения превосходят базовые методы по охвату и управляемости в различных условиях.

arxiv arXiv cs.LG · 8 д назад

Обучение без вознаграждения на визуальных потоках

Новый подход позволяет осуществлять обучение с вознаграждением и наказанием в режиме онлайн без наличия вознаграждений от среды, используя только фиксированные визуальные пакеты. Он обеспечивает высокую точность в инференсе значений и оптимизации политики, при этом B_xi достигает точности 0,952 по сбалансированному знаку вознаграждения и общая производительность политики достигает 0,979 по точности оптимального действия в проверенных задачах, превосходя контрольные варианты, такие как нулевое вознаграждение и перемешанные цели.

arxiv arXiv cs.LG · 8 д назад

EfficientRollout: Системно-осознанная самоспекулятивная декодировка для RL-роллов

EfficientRollout представляет самоспекулятивную декодирующую систему, которая снижает задержку рулл-оута и задержку в конце до 19,6% и 12,7% соответственно, не ухудшая итогальную качество модели. Она использует квантованный драфтер, полученный из целевой модели, и интегрирует системно-осознанную политику переключения, чтобы избежать режимов высокой вычислительной нагрузки, обеспечивая эффективную спекуляцию во время эволюции политики.