Reasoning models — korshunov.ai

Reasoning models Страница 1 / 35

Вычислительные методы для ДНК вне клеток в раннем выявлении множественных видов рака

Настоящий обзор описывает вычислительные методы с 2022 по 2025 год для выявления множественных видов рака на основе ДНК вне клеток в крови. В нем рассматриваются фрагментометрия и эпигенетический анализ, охватываются статистические, методы машинного обучения и глубокого обучения, с акцентом на биологическую интерпретируемость, проверку и клиническую готовность. Мультимодальные методы на основе ансамблей показывают наибольший потенциал для клинического применения, однако для надежного сравнения и дальнейшего прогресса необходимы стандартизированные протоколы оценки.

arxiv arXiv cs.LG · 7 д назад

Офф-политический анализ для вознаграждений MNAR в МДП

Мы предлагаем метод офф-политического анализа для конечногоризонтных МДП с вознаграждениями, отсутствующими не случайно. Наш подход использует модель вероятности, зависящую от вознаграждения, и мостовую функцию для восстановления условных средних вознаграждений без моделирования механизма MNAR, обеспечивая согласованность и границы ошибки на конечных выборках. Эксперименты на симулированных и данных MIMIC-III Sepsis показывают превосходную производительность по сравнению с существующими методами.

arxiv arXiv cs.LG · 7 д назад

MAMO: Многоагентная система для многокритериальной оптимизации с ограничениями

MAMO представляет многоагентную систему на основе обучения с усилением, направленную на решение проблемы баланса минимизации затрат и удовлетворения ограничений в динамических средах. Она разделяет выполнение задач на выбор весов вознаграждений, рассматривая выбор весов как задачу обучения, что позволяет достигать более автономных и устойчивых решений.

arxiv arXiv cs.LG · 7 д назад

Граничное встраивание и формирование для расщепления структур графа

Граничное встраивание и формирование (BES) решает проблему переплетения структуры графа за счёт селективного подавления спорных корреляций соседей вблизи границ классов. BES использует адаптивное контрастное обучение для усиления дифференцирования границ, повышая точность классификации узлов GCN в среднем на 3,3% (до 5,0% на WikiCS) и достигая превосходной точности предсказания связей.

arxiv arXiv cs.LG · 7 д назад

Статистические свойства обучения и обобщения

Статья рассматривает отклонение глубокого обучения от классических статистических интуиций, акцентируя внимание на нейронных законах масштабирования и их взаимодействии с физическими ограничениями и индуктивными предпосылками в приложениях машинного обучения.

arxiv arXiv cs.LG · 7 д назад

Модельный подход к семействам сред обучения с усилением

Модельный подход генерирует семейства сред обучения с усилением с помощью гибридного генетического алгоритма. Варианты сред создаются с помощью преобразований моделей, руководимых передовой системой преобразования моделей, что обеспечивает масштабируемое и ошибочно устойчивое развитие. Метод проверяется в сценариях по ликвидации пожаров и обучения куррикумам.

arxiv arXiv cs.LG · 7 д назад

Рекуррентные нейронные сети аппроксимируют непрерывные функции

Одна нейронная сеть с фиксированными весами и скрытой размерностью на основе ReLU может равномерно аппроксимировать любую непрерывную функцию на отрезке [-1,1] при увеличении времени выполнения. Это достигается с помощью нового моделирования — туринговой машины с нейронными единицами (TMNU), которая обеспечивает баланс между алгоритмической гибкостью и ограниченной имитацией нейронных сетей. Скорости сходимости соответствуют скоростям полиномиальной аппроксимации, а минимаксные нижние границы подтверждают, что время выполнения является важным и неизбежным ресурсом.

arxiv arXiv cs.LG · 7 д назад

Гибридная модель предсказывает динамику микроорганизмов в почвенных системах

Новая гибридная модель использует геномные данные и нейронные сети для прогнозирования биокинетических параметров в моделях распада органического вещества в почве. В нее включены экологические ограничения, чтобы обеспечить реалистичную динамику микроорганизмов, даже для неизмеряемых переменных, и превосходит существующие методы как на синтетических, так и на реальных данных при минимальном объеме обучающих данных.

arxiv arXiv cs.LG · 7 д назад

Критическая перколяция как модель синтетических данных для интерпретируемости

Новый синтетический набор данных, основанный на критических кластерах среднего поля перколяции, предоставляет реалистичную и аналитически обоснованную модель с иерархической структурой. В нём присутствуют редкие, фрактальные кластеры с распределениями размеров по степенному закону и скрытые переменные, генерирующие целевые значения через иерархию таксономии. Нейронные сети могут линейно декодировать эти истинные скрытые переменные из активаций, демонстрируя сильную интерпретируемость.

arxiv arXiv cs.LG · 7 д назад

Обучение, извлечение или оба варианта? Прямое сравнение по статутарной цитате в отношении закона о жилищных договорах в Онтарио

Четырехканальное сравнение показывает, что извлечение необходимо для точной статутарной цитаты в соответствии с Законом о жилищных договорах в Онтарио. Гибридная модель SFT+RAG достигает точности 0,481 с нулевыми халлюцинациями, превосходя базовые и модели только с SFT, и соответствует результатам системы, использующей более крупные и специализированные модели, без необходимости в большом объеме данных или более крупных наборах для обучения. Результаты основаны на небольшом, человеко-проверенном реальном наборе данных и являются предварительными.

arxiv arXiv cs.LG · 7 д назад

Протокол де-биасированного VLM как 3D-судьи для генерации мебели

Де-биасированный протокол судьи на основе VLM специализируется на генерации мебели, используя легкую адаптацию TRELLIS. Протокол решает режимы сбоев, такие как перегрузка изображений и скрытие геометрии, при калибровке показывает коэффициент побед 0,83–1,0 и базовую симметрию по сравнению с базой в 0,5. Среди шести методов адаптации, восстановление условного модуля при тяжелом деградации достигает равенства с базовой моделью, при этом ни один метод не превышает целевой выигрышной доли в 65%.

arxiv arXiv cs.LG · 7 д назад

CRAX: быстрая и безопасная оценка в области обучения с усилением

CRAX представляет высокоточную, быструю оценку безопасности в области обучения с усилением, используя MuJoCo XLA. Он обеспечивает ускорение до 100 раз по сравнению с оценками на процессоре за счёт векторизации и ускорения аппаратными средствами, включая шесть наборов сред и три задачи для агентов на трёх уровнях сложности. Оценка шести методов безопасного обучения с усилением показывает, что ни один подход не доминирует, подчёркивая компромиссы между производительностью и безопасностью, при этом куррикулярное обучение и передача безопасности улучшают результаты.

arxiv arXiv cs.CL · 7 д назад

Трансформаторы с цепочкой мыслей могут эффективно имитировать алгоритмы Word RAM

Трансформаторы с цепочкой мыслей могут эффективно имитировать алгоритмы Word RAM с лишь полиномиально-логарифмической задержкой. Эта эффективность повышается до лог-квадратов для плоских инструкций и логарифмов для инструкций без умножения, в отличие от предыдущих имитаций туринговых машин, требующих квадратичной задержки.

arxiv arXiv cs.CL · 7 д назад

Анализ настроения пропускает ключевые результаты клиентов

Исследование 70 450 разговоров по поддержке показало, что анализ настроения плохо отражает удовлетворенность клиентов, при этом оценки удовлетворенности на основе GPT-5.4 коррелируют с рейтингами на 0.47, в то время как анализ настроения показывает корреляцию 0.36. Модель также выявила 44% разговоров, где тон и удовлетворенность расходятся, что выявляет «терпимую тревожность» — клиенты, которые заявляют о удовлетворении, все же указывают на исправляемые проблемы — явление, не видимое анализом настроения.

arxiv arXiv cs.CL · 7 д назад

TerraMARS: Пайплайн малого языкового моделирования для литературы по трансформации Марса

TerraMARS — это пайплайн, который использует малую языковую модель, адаптированную к области, для извлечения структурированной информации из научной литературы по Марсу. Он преобразует неструктурированный текст в формат JSON и поддерживает ответы на вопросы, связанные с трансформацией Марса, что позволяет интегрировать его в моделирование пригодности для жизни и цифровых двойников. Пайплайн использует Google Gemma 3 1B, тонко настроенную с использованием QLoRA на наборах данных, специфичных для Марса, хотя требуется дальнейшая работа для повышения точности и фактической согласованности.

arxiv arXiv cs.CL · 7 д назад

NEST: Датасет для нарративных структур событий в длинных видео

NEST представляет датасет из 1005 полных фильмов, каждый из которых аннотирован 102 мультимодальными нарративными событиями, основанными на визуальном, диалоговом и аудио содержимом. Датасет отражает отношения между событиями, такие как временная последовательность, иерархия и долгосрочные зависимости, при оценке на задачах показывают низкую производительность в обнаружении и локализации событий, и более высокую производительность в извлечении отношений между событиями после финальной настройки.

arxiv arXiv cs.CL · 7 д назад

FineREX: настроенная система извлечения названий и связей для знаний о незаконной транспортировке людей

FineREX — это специализированная система знаний, использующая настроенную модель языковой модели для извлечения названий и связей. Она превосходит общие модели на 15,50% по метрике F1 для сущностей и на 31,46% по метрике F-1 для связей, снижая шум в правовых данных почти вдвое и сокращая дублирование узлов с 17,78% до 11.-17%. Система также сокращает общее время обработки на 50,0% за счёт устранения избыточных шагов.

arxiv arXiv cs.CL · 7 д назад

NRITYAM: Бенчмарк для культурного понимания в танце

NRITYAM — это многоразговорный бенчмарк с 9260 пар вопрос-ответ в 12 языках, разработанный для оценки культурного понимания языковых моделей в отношении традиционных танцевальных традиций по всему миру. Разработан в сотрудничестве с местными танцорами и носителями языков, он обеспечивает всестороннюю оценку способности ИИ понимать традиционные театральные искусства в различных социокультурных контекстах.

arxiv arXiv cs.CL · 7 д назад

Последовательный DPO показывает переменное влияние предпочтений в различных настройках

Исследование последовательного прямого оптимизации предпочтений показывает, что последующее обучение не унифицированно ухудшает ранее изученные предпочтения. Эффект варьируется в зависимости от взаимосвязи целей, силы сигнала и порядка обучения, варьируясь от частичного ухудшения до положительного переноса. Анализ на уровне пар показывает гетерогенные изменения, при этом пары с высокой уверенностью в предпочтениях иногда улучшаются, несмотря на стабильность общих метрик.

arxiv arXiv cs.CL · 7 д назад

Байесовское куррикулярное обучение на латентных многообразиях ЛЛМ

Manifold Bandits вводит Байесовское куррикулярное многообразие (BMC), рамку, которая моделирует выбор задач как структурированную задачу в латентном пространстве ЛЛМ. BMC организует задачи в иерархическое дерево и использует байесовское обучение для направления выбора, раскрывая компромиссы между сигналом обучения, разнообразием задач и релевантностью оценки. Простое приоритизация сложности не приводит к сильной производительности на последующих задачах, что подчеркивает необходимость структуры и выбора, учитывающего тип задачи.