Reasoning models — korshunov.ai

Reasoning models Страница 1 / 35

АСТЕРОИД: трансформатор для прогнозирования многошаговых симуляций молекулярной динамики

АСТЕРОИД — это данные-ориентированный фреймворк, который прогнозирует многошаговые координаты атомов в симуляциях молекулярной динамики без итеративного интегрирования. Он использует архитектуру трансформатора, ориентированную на пространственно-временные зависимости, для моделирования многоуровневых зависимостей, обеспечивая более высокую точность и меньшую вычислительную стоимость по сравнению с существующими методами на данных, полученных из квантовой механики.

arxiv arXiv cs.LG · 8 д назад

Справедливость в графовых нейронных сетях через адаптацию лапласиана

Новый подход модифицирует оператор лапласиана в графовой диффузии для повышения справедливости за счёт включения проекций на подпространства, спектральных корректировок и фильтрации по частотам. Метод использует сглаживающие свойства графовой диффузии для уменьшения предвзятости, и теоретический анализ вместе с эмпирической проверкой на синтетических и реальных данных показывают улучшение справедливости без значительного увеличения вычислительной нагрузки.

arxiv arXiv cs.LG · 8 д назад

Использование базы дельта для пересмотра целей улучшает прогнозирование нагрузки на электричество

Метод пересмотра целей на основе дельта улучшает прогнозирование нагрузки на электричество в краткосрочной перспективе, предсказывая изменения нагрузки, а не абсолютные значения. Результаты показывают снижение MAPE более чем на 50% для прогнозов на один час вперед при использовании моделей LSTM и Transformer, с существенными преимуществами для глубоких последовательных моделей в прогнозах на день вперед.

arxiv arXiv cs.LG · 8 д назад

Модели визуально-языковых систем не всегда нуждаются в изображениях для точности рентгеновских снимков грудной клетки

Каузальный аудит показывает, что многие визуально-языковые модели достигают высокой точности рентгеновских снимков грудной клетки без использования изображений. Текстовые модели достигают одинаковой производительности с мультимодальными моделями и превосходят их в области сопоставления, при этом показатели точности и уверенности появляются только при использовании изображений. Эти результаты указывают на то, что точность в отдельности недостаточна для подтверждения клинического внедрения, и необходимо оценивать сопоставление.

arxiv arXiv cs.LG · 8 д назад

Невидимое восстановление скрытых доменов за счет открытия симметрии без надзора

В статье предложена безнадзорная система восстановления скрытых доменов и сигналов из искаженных наблюдений за счет открытия симметрий данных. Авторы моделируют наблюдения как линейные измерения сигналов из скрытого случайного поля и используют неглубокую сеть с групповыми свертками с ограничениями на стационарность и локальность для обучения скрытых симметрий и фильтров, что позволяет восстанавливать сигналы из неструктурированных данных.

arxiv arXiv cs.LG · 8 д назад

Легкие экспериментальные скрытые воспоминания для непрерывного самоулучшения

Новый метод позволяет крупным языковым моделям учиться на собственных следах рассуждений без внешнего контроля. Сжимая вычисления во время инференса в легкие, модульные скрытые воспоминания, модель достигает результатов, сопоставимых с полным обучением, и превосходит базовые подходы без шаблонов и чистого ICL на задачах математического мышления, при минимальных вычислительных затратах.

arxiv arXiv cs.LG · 8 д назад

Законы сохранения для современных нейронных архитектур

Эта статья представляет единый подход к выявлению законов сохранения в потоке градиентов для современных нейронных архитектур. В ней рассматриваются прямые сети с активациями GELU, SiLU и SwiGLU, мультихедовые внимательные механизмы с синусоидальными и вращательными позиционными кодами, а также модели смеси экспертов при различных схемах гейтинга. Эксперименты подтверждают предсказанные инварианты, что поддерживает теоретические результаты.

arxiv arXiv cs.LG · 8 д назад

Функциональная эквивалентность в внимании с позиционными кодами

Полное исследование показывает, что синусоидальные позиционные коды сохраняют функциональную эквивалентность в трансформерах, в то время как вращательные позиционные коды снижают симметрию, повышая выразительность. Исследование показывает, что позиционные коды критически влияют на линейную связность режима, и эмпирические результаты демонстрируют вариабельность в связности в зависимости от используемого кода.

arxiv arXiv cs.LG · 8 д назад

Стабилизация убеждений больших языковых моделей за счёт промптованного предиктивного ресэмплинга

Большие языковые модели демонстрируют раннее отклонение убеждений при ответах на вопросы с несколькими вариантами, нарушая свойство мартингала. Промптованный предиктивный ресэмплинг (PPR) выявляет это отклонение, которое самостабилизируется после достаточного количества ресэмплинга, что приводит к согласованным предиктивным распределениям. Мы предлагаем стратегию промпта на основе начального ответа и потери самосогласованности для ускорения стабилизации и снижения отклонения, улучшая согласованность предикций без влияния на точность.

arxiv arXiv cs.LG · 8 д назад

Qwen-RobotManip достигает обобщения в роботизированной манипуляции

Qwen-RobotManip, фундаментальная модель на основе визуального-языкового-действия, позволяет проводить масштабную обучение за счет единого синхронизации в представлении, движении и поведении. Модель использует открытые данные для создания корпуса предобучения из 38 100 часов и демонстрирует возникающее обобщение, превосходя предыдущие передовые модели в условиях распределения за пределами распределения и занимает первое место в RoboChallenge с относительным улучшением на 20% на реальных роботах.

arxiv arXiv cs.LG · 8 д назад

WallZero побеждает профессиональных игроков Go в WallGo

WallZero, агент на основе AlphaZero, побеждает двух профессиональных игроков Go в WallGo, в среднем за игру занимая 1,98 раз больше территории. Исследование показывает, что открытие из сериала Netflix создает более сбалансированную игру, что указывает на улучшение справедливости в игре.

arxiv arXiv cs.LG · 8 д назад

Порядково-независимые представления на уровне ячеек для многозадачной распознавания таблиц

В этой статье представлен модуль структурной оптимизации, использующий неуправляемое внимание, для генерации порядково-независимых признаков ячеек в автокоррекционной многозадачной распознавании таблиц. Подход позволяет параллельную распознавание содержимого ячеек, сохраняя глобальный контекст, улучшая локализацию ячеек и полную распознавание с уменьшением времени инференса в три раза.

arxiv arXiv cs.LG · 8 д назад

MKAN: Монотонные колмогоров-арнольдовые сети с жесткой монотонностью

MKAN представляет колмогоров-арнольдовую сеть с гарантированной жесткой монотонностью для всех значений параметров, достигнутой за счёт экспоненциальной перепараметризации, положительных весов рёбер и монотонного базового активатора. Сеть позволяет использовать стандартную оптимизацию градиентного спуска и предоставляет теорему о представлении, показывающую, что любой извлекатель признаков может быть реализован с монотонной структурой при размере не более чем в два раза больше исходного, что даёт принципиальное правило масштабирования для монотонных кодировщиков.

arxiv arXiv cs.LG · 8 д назад

Размерность определяет условия, при которых модульность помогает в непрерывном обучении

Модульная архитектура усиливает композиционное непрерывное обучение только в низкодименсиональных режимах, где подпространства представлений частично совпадают для схожих задач. В высокодименсиональных режимах как модульные, так и одиночные сети работают одинаково, что указывает на то, что польза модульности зависит от размерности представлений, индуцированной масштабом инициализации.

arxiv arXiv cs.LG · 8 д назад

Гибридная модель Ret-DNN с XGBoost для прогнозирования поведения клиентов

Исследование предлагает гибридную модель Ret-DNN с XGBoost для прогнозирования поведения клиентов в электронной коммерции. Используя 500 000 записей транзакций от ритейлера в Великобритании, модель достигает средней абсолютной ошибки 0,2193, превосходя существующую модель Ret-DNN.

arxiv arXiv cs.LG · 8 д назад

SoftMoE: мягкая дифференцируемая маршрутизация для смеси экспертов в больших языковых моделях

SoftMoE заменяет дискретную маршрутизацию top-k на дифференцируемую мягкую версию top-k LapSum, что позволяет проводить градиентную оптимизацию выбора экспертов. Он обучает распределять активацию экспертов неравномерно по слоям, при этом более глубокие слои активируют больше экспертов, при этом используя значительно меньше экспертов, чем традиционные редкие смеси экспертов.

arxiv arXiv cs.LG · 8 д назад

CERS: улучшенное рассуждение на основе цепочки мыслей для сегментации медицинских изображений

CERS вводит рассуждение на основе цепочки мыслей для улучшения сегментации медицинских изображений в полуобученных условиях, интегрируя лингвистические описания из больших языковых моделей. Оно использует семантически осознанное выборку ссылок и мульти-масштабное внимание координат для устранения неопределенностей на границах и семантических несоответствий, превосходя современные методы в клинических сценариях с несоответствием визуально-семантического.

arxiv arXiv cs.LG · 8 д назад

Полу-связь в достаточности знаний графов фундаментальных моделей

Новое исследование показывает, что КГФМ могут предсказывать полные связи, используя только частичные наблюдения, такие как полусвязи. Оно выявляет четыре сценария на основе наблюдаемых полусвязей и показывает, что передовые модели используют видимые полусвязи, в то время как невидимые представляют собой значительные проблемы обобщения. Эта классификация предоставляет диагностическую рамку для оценки и улучшения устойчивости КГФМ.

arxiv arXiv cs.AI · 8 д назад

STAR: SpatioTemporal Adaptive Reward Allocation для генерации текста-в-изображение в RL после обучения

STAR вводит метод распределения вознаграждения в пространственно-временной области для генерации текста-в-изображение, используя карты внимания для динамического присвоения преимуществ на шагах дезактивации. Оно улучшает семантическую синхронизацию, отображение текста и оптимизацию предпочтений в Stable Diffusion 3.5 Medium, достигая 0.9759, 0.9757 и 23.60 на GenEval, OCR и PickScore соответственно.

arxiv arXiv cs.AI · 8 д назад

Семантический подход к моделированию скрытого пространства для реконструкции 3D МРТ

Новый подход приоритизирует анатомические семантики при сжатии скрытого пространства 3D МРТ, решая проблемы долгосрочной целостности и потери клинических деталей. В нем представлен скрытый гармонизирующий кодировщик и блок восстановления семантики для сохранения значимых структур, а также анатомически осознанная потеря частоты для сохранения высокочастотных диагностических особенностей. Эксперименты на публичных наборах данных МРТ показывают улучшенную реконструкцию и качество синтеза в разных контрастах.