Reasoning models — korshunov.ai

Reasoning models Страница 1 / 35

Законы сохранения для современных нейронных архитектур

Эта статья представляет единый подход к выявлению законов сохранения в потоке градиентов для современных нейронных архитектур. В ней рассматриваются прямые сети с активациями GELU, SiLU и SwiGLU, мультихедовые внимательные механизмы с синусоидальными и вращательными позиционными кодами, а также модели смеси экспертов при различных схемах гейтинга. Эксперименты подтверждают предсказанные инварианты, что поддерживает теоретические результаты.

arxiv arXiv cs.LG · 8 д назад

Функциональная эквивалентность в внимании с позиционными кодами

Полное исследование показывает, что синусоидальные позиционные коды сохраняют функциональную эквивалентность в трансформерах, в то время как вращательные позиционные коды снижают симметрию, повышая выразительность. Исследование показывает, что позиционные коды критически влияют на линейную связность режима, и эмпирические результаты демонстрируют вариабельность в связности в зависимости от используемого кода.

arxiv arXiv cs.LG · 8 д назад

Стабилизация убеждений больших языковых моделей за счёт промптованного предиктивного ресэмплинга

Большие языковые модели демонстрируют раннее отклонение убеждений при ответах на вопросы с несколькими вариантами, нарушая свойство мартингала. Промптованный предиктивный ресэмплинг (PPR) выявляет это отклонение, которое самостабилизируется после достаточного количества ресэмплинга, что приводит к согласованным предиктивным распределениям. Мы предлагаем стратегию промпта на основе начального ответа и потери самосогласованности для ускорения стабилизации и снижения отклонения, улучшая согласованность предикций без влияния на точность.

arxiv arXiv cs.LG · 8 д назад

Qwen-RobotManip достигает обобщения в роботизированной манипуляции

Qwen-RobotManip, фундаментальная модель на основе визуального-языкового-действия, позволяет проводить масштабную обучение за счет единого синхронизации в представлении, движении и поведении. Модель использует открытые данные для создания корпуса предобучения из 38 100 часов и демонстрирует возникающее обобщение, превосходя предыдущие передовые модели в условиях распределения за пределами распределения и занимает первое место в RoboChallenge с относительным улучшением на 20% на реальных роботах.

arxiv arXiv cs.LG · 8 д назад

WallZero побеждает профессиональных игроков Go в WallGo

WallZero, агент на основе AlphaZero, побеждает двух профессиональных игроков Go в WallGo, в среднем за игру занимая 1,98 раз больше территории. Исследование показывает, что открытие из сериала Netflix создает более сбалансированную игру, что указывает на улучшение справедливости в игре.

arxiv arXiv cs.LG · 8 д назад

Порядково-независимые представления на уровне ячеек для многозадачной распознавания таблиц

В этой статье представлен модуль структурной оптимизации, использующий неуправляемое внимание, для генерации порядково-независимых признаков ячеек в автокоррекционной многозадачной распознавании таблиц. Подход позволяет параллельную распознавание содержимого ячеек, сохраняя глобальный контекст, улучшая локализацию ячеек и полную распознавание с уменьшением времени инференса в три раза.

arxiv arXiv cs.LG · 8 д назад

MKAN: Монотонные колмогоров-арнольдовые сети с жесткой монотонностью

MKAN представляет колмогоров-арнольдовую сеть с гарантированной жесткой монотонностью для всех значений параметров, достигнутой за счёт экспоненциальной перепараметризации, положительных весов рёбер и монотонного базового активатора. Сеть позволяет использовать стандартную оптимизацию градиентного спуска и предоставляет теорему о представлении, показывающую, что любой извлекатель признаков может быть реализован с монотонной структурой при размере не более чем в два раза больше исходного, что даёт принципиальное правило масштабирования для монотонных кодировщиков.

arxiv arXiv cs.LG · 8 д назад

Размерность определяет условия, при которых модульность помогает в непрерывном обучении

Модульная архитектура усиливает композиционное непрерывное обучение только в низкодименсиональных режимах, где подпространства представлений частично совпадают для схожих задач. В высокодименсиональных режимах как модульные, так и одиночные сети работают одинаково, что указывает на то, что польза модульности зависит от размерности представлений, индуцированной масштабом инициализации.

arxiv arXiv cs.LG · 8 д назад

Гибридная модель Ret-DNN с XGBoost для прогнозирования поведения клиентов

Исследование предлагает гибридную модель Ret-DNN с XGBoost для прогнозирования поведения клиентов в электронной коммерции. Используя 500 000 записей транзакций от ритейлера в Великобритании, модель достигает средней абсолютной ошибки 0,2193, превосходя существующую модель Ret-DNN.

arxiv arXiv cs.LG · 8 д назад

SoftMoE: мягкая дифференцируемая маршрутизация для смеси экспертов в больших языковых моделях

SoftMoE заменяет дискретную маршрутизацию top-k на дифференцируемую мягкую версию top-k LapSum, что позволяет проводить градиентную оптимизацию выбора экспертов. Он обучает распределять активацию экспертов неравномерно по слоям, при этом более глубокие слои активируют больше экспертов, при этом используя значительно меньше экспертов, чем традиционные редкие смеси экспертов.

arxiv arXiv cs.LG · 8 д назад

CERS: улучшенное рассуждение на основе цепочки мыслей для сегментации медицинских изображений

CERS вводит рассуждение на основе цепочки мыслей для улучшения сегментации медицинских изображений в полуобученных условиях, интегрируя лингвистические описания из больших языковых моделей. Оно использует семантически осознанное выборку ссылок и мульти-масштабное внимание координат для устранения неопределенностей на границах и семантических несоответствий, превосходя современные методы в клинических сценариях с несоответствием визуально-семантического.

arxiv arXiv cs.LG · 8 д назад

Полу-связь в достаточности знаний графов фундаментальных моделей

Новое исследование показывает, что КГФМ могут предсказывать полные связи, используя только частичные наблюдения, такие как полусвязи. Оно выявляет четыре сценария на основе наблюдаемых полусвязей и показывает, что передовые модели используют видимые полусвязи, в то время как невидимые представляют собой значительные проблемы обобщения. Эта классификация предоставляет диагностическую рамку для оценки и улучшения устойчивости КГФМ.

arxiv arXiv cs.AI · 8 д назад

STAR: SpatioTemporal Adaptive Reward Allocation для генерации текста-в-изображение в RL после обучения

STAR вводит метод распределения вознаграждения в пространственно-временной области для генерации текста-в-изображение, используя карты внимания для динамического присвоения преимуществ на шагах дезактивации. Оно улучшает семантическую синхронизацию, отображение текста и оптимизацию предпочтений в Stable Diffusion 3.5 Medium, достигая 0.9759, 0.9757 и 23.60 на GenEval, OCR и PickScore соответственно.

arxiv arXiv cs.AI · 8 д назад

Семантический подход к моделированию скрытого пространства для реконструкции 3D МРТ

Новый подход приоритизирует анатомические семантики при сжатии скрытого пространства 3D МРТ, решая проблемы долгосрочной целостности и потери клинических деталей. В нем представлен скрытый гармонизирующий кодировщик и блок восстановления семантики для сохранения значимых структур, а также анатомически осознанная потеря частоты для сохранения высокочастотных диагностических особенностей. Эксперименты на публичных наборах данных МРТ показывают улучшенную реконструкцию и качество синтеза в разных контрастах.

arxiv arXiv cs.AI · 8 д назад

T-API-совместимый цикл ReAct для оптических сетей

Вводится T-API-совместимый цикл ReAct с агентной архитектурой для оптических сетей, обеспечивающий управление на основе намерений и замкнутого цикла. Доменные специализированные композитные инструменты обеспечивают 90% оракульной проверки корректности и снижают использование токенов в три раза по сравнению с обобщенными инструментами.

arxiv arXiv cs.AI · 8 д назад

Теория поведения потребителей на основе больших языковых моделей: новая область исследований

В этой статье представлено понятие теории поведения потребителей на основе больших языковых моделей, новой области, анализирующей, как большие языковые модели принимают решения о потреблении от имени пользователей. Теория объединяет исследования по принятию решений на основе больших языковых моделей, имитации поведения человека и извлечению предпочтений в рамках экономических принципов, выявляя ключевые пробелы в допущениях, таких как рациональность и гетерогенность в агентных рынках.

arxiv arXiv cs.AI · 8 д назад

LegalHalluLens: аудит галлюцинаций в правовом ИИ

LegalHalluLens представляет рамку для аудита галлюцинаций ИИ в правовых контекстах, анализируя профили галлюцинаций при вводе по четырём категориям претензий. Оно выявляет разрыв в 38-40 баллов между претензиями о обязательствах/численных и временных претензиях, и показывает, что две системы с одинаковыми показателями 52% галлюцинаций могут иметь противоположные направления риска. Рамка использует индекс направления риска и калиброванные дебатные потоки для снижения обнаружения выдуманных данных на 45% и улучшения ответственности при внедрении правового ИИ.

arxiv arXiv cs.AI · 8 д назад

Катастрофическое забвение — это низкое ранговое: теория функционального пространства

Теория функционального пространства показывает, что катастрофическое забвение при непрерывной адаптации концентрируется в малом числе старых задач NTK-эйгенмодов. В случае линейного голова PEFT-CL с замороженным основанием, вектор забвения точно предсказуем до численной точности, с правилом Кронекера для уязвимого ранга.

arxiv arXiv cs.AI · 8 д назад

Влияние исходного языка в межязыковом обучении в контексте

Исследование показывает, что предположения, основанные на мелкой настройке, о межязыковом переносе не применимы в случае обучения в контексте с минимальным количеством примеров. Исследование показывает, что выбор исходного языка значительно влияет на производительность и выявляет новые эвристики для эффективного межязыкового обучения в контексте.

arxiv arXiv cs.AI · 8 д назад

ProvenanceGuard: проверка фактичности с учетом источника для агентов на основе LLM с использованием MCP

ProvenanceGuard вводит проверяющий модуль с учетом источника для агентов на основе LLM с использованием MCP, который обнаруживает пересечение источников путем направления утверждений к конкретным источникам доказательств и сравнения указанного источника с фактическим владением источником. Он достигает значения F1 по блокам 0,802 и точности по источникам 0,858 на 260 утверждениях, имеющих источники, превосходя базовые модели без учета источника, и обнаруживает все вставленные замены атрибутов в 50 клинических пробах.