Reasoning models — korshunov.ai

Reasoning models Страница 1 / 35

Riazi-8B: большая языковая модель для математического рассуждения на урду

Недавние большие языковые модели демонстрируют сильные способности к математическому рассуждению, однако эти достижения в значительной степени опираются на англоцентричные ресурсы, оставляя такие языки с низким уровнем ресурсов, как урду, с ограниченными возможностями. Чтобы восполнить этот пробел, исследователи разработали Riazi-8B — модель на урду, специально предназначенную для решения многошаговых математических задач. Модель была создана посредством двухэтапного процесса адаптации, включающего продолжение предобучения на урду-версии Википедии и контролируемое тонкое дообучение (supervised fine-tuning) на данных цепочки рассуждений (Chain-of-Thought) на урду, полученных из GSM8K. Оценка Riazi-8B проводилась на бенчмарке MGSM-Urdu по сравнению с существующими моделями, тонко настроенными для инструкций на урду. Результаты показали последовательные улучшения в правильности ответов, качестве рассуждений, полноте ответов и генерации текста на урду по сравнению с базовыми моделями. Эти выводы демонстрируют, что сочетание адаптации языка урду с тонким дообучением, ориентированным на рассуждения, эффективно расширяет возможности математического рассуждения для языков с низким уровнем ресурсов.

arxiv arXiv cs.CL · 1 ч назад Live

OPERA: Согласование открытого рассуждения посредством объективного обучения с подкреплением на основе перплексии

Фреймворк OPERA решает проблему нестабильности применения обучения с подкреплением к задачам с открытым ответом, заменяя внешние модели-судьи внутренними наградами, полученными из динамики перплексии. Этот подход количественно оценивает снижение неопределенности в критических состояниях рефлексии, устраняя стилистические смещения и позиционные несоответствия, характерные для систем LLM-as-a-judge. На этапе холодного старта метод использует направляющие слова для синтеза разнообразных цепочек рассуждений и применяет роллауты с приоритетом по перплексии для выявления логически согласованных ветвей. Этот конвейер генерирует крупномасштабный набор данных из 20 000 высококачественных траекторий рассуждения для обучения. Внедрение OPERA на модель Qwen3-8B устанавливает новый уровень state-of-the-art среди моделей с открытым исходным кодом. Система достигает паритета или превосходит проприетарные модели, такие как Gemini2.5 и MiniMax-M2.5, в конкретных задачах с открытым ответом. Эмпирические оценки подтверждают масштабируемость и эффективность данной стратегии согласования на основе объективной перплексии.

arxiv arXiv cs.AI · 12 ч назад

LLMs используют логику разности для изучения причинной структуры

Большие языковые модели изучают причинную структуру с помощью логики разности, аналогичной экспериментальному методу. Этот подход определяет, какие последовательности слов влияют на результаты, а какие — нет, используя огромные объемы текстовых данных в процессе обучения. Архитектурные элементы, такие как векторы токенов и самовнимание, поддерживают этот индуктивный процесс, выявляя паттерны вариации и безразличия в языке.

arxiv arXiv cs.AI · 15 ч назад

Gazer: обнаружение ошибок семантики без обучения для автокорректирующих визуальных моделей

Gazer представляет рамку без обучения, которая использует обратную связь крупных моделей языка с несколькими модальностями для исправления ошибок семантики в реальном времени во время генерации автокорректирующими визуальными моделями. Интегрируя этапы отражательной диагностики и исправления семантики, Gazer повышает точность составления и выравнивание семантики между несколькими моделями без дополнительного обучения.

arxiv arXiv cs.AI · 16 ч назад

Мультимодальный цепочка мыслей: Возможности и ограничения

Мультимодальная цепочка мыслей улучшает производительность в математических и научных рассуждениях, но ухудшает визуальное восприятие и подсчет объектов в задачах восприятия. Модели демонстрируют паттерн «Смотрим слабо, думаем сильно», при котором визуальное отражение снижается, а вербальное рассуждение увеличивается, что указывает на постоянный барьер в визуальной саморефлексии при мультимодальном рассуждении.

arxiv arXiv cs.AI · 17 ч назад

PaperClaw: автономные исследования с вовлечением человека на этапе уточнения

PaperClaw — это многоагентная система, которая автономно проводит исследования от выбора направления до публикации статьи. Она использует проверенный итеративный цикл предложение-тест-отражение, основанный на реальных ссылках и выполнимых результатах, и обеспечивает вовлечение человека на любом этапе. Оценка показывает, что система создаёт сильные статьи как автономно, так и при участии человека.

arxiv arXiv cs.LG · 17 ч назад

Топологические нейронные динамики: моделирование последовательностей по нейронам

Топологические нейронные динамики (TND) вводят рамку моделирования последовательностей по нейронам, при которой каждый нейрон развивается независимо через структуру направленного графа. В задаче копирования поведения одного игрока в игре Pong TND достигает среднего значения 17,47 последовательных перехватов за круг, превосходя все базовые модели более чем в три раза.

arxiv arXiv cs.LG · 17 ч назад

TASER: расширение навыков на основе задач для непрерывного обучения в гетерогенных задачах

TASER представляет рамку, которая динамически расширяет и направляет атомарные навыки для непрерывного обучения в гетерогенных задачах. Он снижает катастрофическое забвение и повышает пластичность за счёт обеспечения семантической различимости и эффективного распределения ресурсов через механизмы обнаружения и направления навыков. Оценка на HeteroCLBench, бенчмарке с 19 разными задачами по 9 когнитивным измерениям, показывает, что TASER превосходит существующие базовые решения.

arxiv arXiv cs.LG · 17 ч назад

NASDAQ: Усреднённая динамика наблюдений с усилением Q-обучения

NASDAQ решает проблемы низкомерных наблюдений в обучении с усилением, нормализуя пространства наблюдений для балансировки потерь реконструкции. Оно интегрирует обучение оценок с краткосрочной оценкой и предсказанием следующего наблюдения, достигая конкурентоспособных или превосходных результатов с меньшим временем обучения в различных областях.

arxiv arXiv cs.LG · 17 ч назад

Диагностика для выбора политики в МОРЛ

Мы предлагаем диагностический процесс для выявления поведенческих вариаций в политиках многокритериального обучения с подкреплением. Метод выявляет различия в траекториях политики за пределами ожидаемых возвратов, предоставляя количественные и визуальные инструменты для анализа политики. Проверен на сетевых мирах и масштабирован на задачи непрерывного управления, эффективно выявляет поведенческую разнообразность при росте сложности.

arxiv arXiv cs.LG · 18 ч назад

Ремонт графа Рамануя снижает перенасыщение в ГНН

Метод Рамануя распространения использует графы Рамануя для снижения перенасыщения в графовых нейронных сетях, обеспечивая ненулевую кривизну сопротивления. Метод сохраняет локальную связность, обеспечивая эффективный поток информации на большие расстояния, превосходя девять наиболее передовых методов переподключения.

arxiv arXiv cs.LG · 18 ч назад

Модели Transformer чрезвычайно чувствительны к шуму в данных о траектории

Исследование показало, что модели прогнозирования траекторий на основе Transformer значительно ухудшаются при наличии шумовых данных о состоянии объектов. Точность падает в 1,3 раза при умеренном шуме и до 3,9 раз при реальных высоких уровнях шума, что подчеркивает чувствительность моделей и необходимость использования шумных, реальных данных для обучения и разработки стратегий смягчения шума.

arxiv arXiv cs.LG · 18 ч назад

Интерпретация временных деревьев поведения с помощью Reward-Petri-Net

В этой статье предложена интерпретация временных деревьев поведения с помощью Reward-Petri-Net для обучения с вознаграждением. В статье временные деревья поведения переводятся в сети Петри, присваиваются вознаграждения на основе структурных ограничений, определённых в линейной временной логике, что позволяет эффективно обучать в сложных задачах с длинными горизонтами, где обычное обучение с вознаграждением не справляется.

arxiv arXiv cs.LG · 19 ч назад

Управление прогнозированием ремонта с использованием многоуровневого внимания и онлайн-обучения

Фреймворк глубокого обучения, использующий многоуровневое внимание и онлайн-обучение, с высокой точностью предсказывает продолжительность ремонта, интегрируя категориальные и числовые исторические данные. Модель достигает точности 78% на реальных данных по ремонту с 2013 по 2020 год, превосходя прямые нейронные сети и случайные леса, при этом веса внимания раскрывают ключевые взаимодействия признаков.

arxiv arXiv cs.LG · 19 ч назад

Кадровая система на основе TRIZ улучшает креативный дизайн

Кадровая система на основе TRIZ использует большие языковые модели для генерации креативных, редактируемых 3D моделей CAD, интегрируя изобретательские принципы из патентной информации. В случае исследования дизайна стула она обеспечила снижение массы на 4,0-14,7% при сохранении структурной целостности за счёт принципов, таких как сегментация и композитные материалы.

arxiv arXiv cs.LG · 19 ч назад

Функциональная ортогональность обеспечивает идентифицируемость в непеременной дисентанглменте

В статье доказывается, что локально ортогональные направления в генеративных моделях гарантируют идентифицируемость скрытых факторов без необходимости в статистической независимости или касательных предположениях. Эксперименты с ортогонально регулируемыми нормализующими потоками подтверждают надежное восстановление истинных скрытых факторов, что оспаривает ранее сформулированные утверждения о невозможности непеременной дисентанглменты.

arxiv arXiv cs.LG · 19 ч назад

Атомарные языковые модели понимают и генерируют материалы

Атомарные языковые модели (ALM) объединяют язык и атомарные структуры, позволяя генерировать и оптимизировать кристаллы с использованием естественного языка. ALM используют непрерывный мост для отображения языковых векторов в пространство диффузии, направляющее атомарные структуры, и применяют Text-to-Crystal Feynman-Kac для точности стехиометрии. Бенчмарк ALM Bench оценивает генерацию и оптимизацию материалов при условии текста, код и веса будут скоро опубликованы.

arxiv arXiv cs.LG · 19 ч назад

Фреймворк LDT-FRL для кибер-устойчивых IoMT

Фреймворк LDT-FRL вводит систему защиты с сохранением конфиденциальности для устройств IoMT, объединяя временной внимательный механизм, лёгкие цифровые двойники и федеративное обучение с подкреплением. Он достигает точности 99,66% и 99,95% на тестах CICDDoS 2019 и TON-IoT, с идеальной F1 на классе MITM, сходится на 81% быстрее, чем ранее известные методы, и обеспечивает интерпретируемость решений защиты через SHAP и Grad-CAM.

arxiv arXiv cs.LG · 19 ч назад

Общие кодеры для модульного реляционного глубокого обучения

В статье предложена модульная реляционная модель глубокого обучения, которая разделяет кодирование строк на передачу сообщений в графе. Вводится трансформер-базированный универсальный кодер строк, который использует метаданные схемы для генерации инвариантных векторов строк, что позволяет улучшить обобщение на разных базах данных и ускорить сходимость на бенчмарках RelBench.

arxiv arXiv cs.LG · 19 ч назад

Кадр BIPC ускоряет оптимизацию смешанных целых чисел с помощью машинного обучения

Кадр BIPC уменьшает время решения для больших смешанных целочисленных программ за счёт выявления подмножества переменных, которые определяют вычислительную сложность. Используя обучение с учителем, он предсказывает значения и интервалы переменных-дверей, затем решает уменьшенную задачу с этими предсказаниями, достигая значительного ускорения с минимальным потерей качества. Это позволяет получать быстрые и качественные решения при возмущениях параметров в реальных системах, таких как энергетика и цепи поставок.