Reasoning models — korshunov.ai

Reasoning models Страница 1 / 35

LedgerAgent: структурированный статус для агентов вызова инструментов, соблюдающих политику

LedgerAgent вводит структурированный журнал для поддержания состояний задач отдельно в агентах вызова инструментов. Он превращает эти состояния в промпты и обеспечивает соблюдение политических ограничений до выполнения инструмента, что снижает нарушения политики и улучшает производительность в областях обслуживания клиентов.

arxiv arXiv cs.AI · 7 д назад

AI Экономист-агент: Кадровая аналитическая платформа в области экономики

AI Экономист-агент использует RAG, графы знаний и ЛЛМ для генерации экономических историй, основанных на теории и данных. Он обеспечивает аналитику на основе моделей, извлечение доказательств и генерацию отчетов, гарантируя экономическую согласованность и отслеживаемость через явные вычисления моделей.

arxiv arXiv cs.AI · 7 д назад

Лёгкий как процесс-верифицированный оракул вознаграждения в RL для доказательства теорем

Эта работа показывает, что Lean может служить симметрическим оракулом процесса, предоставляя детализированные, верифицированные сигналы обратной связи во время обучения с усилением. Разбивая попытки доказательства на последовательности тактик и используя элаборацию Lean для выделения корректных шагов и первых сбоев, система генерирует плотные сигналы вознаграждения, основанные на типовой теории. Эксперименты демонстрируют, что надзор на уровне тактик превосходит методы, основанные только на результатах, на бенчмарках, таких как MiniF2F и ProofNet, что подчёркивает роль Lean как оценщика и источника вознаграждения для обучения.

arxiv arXiv cs.AI · 7 д назад

EEG Foundation Models для обнаружения всплесков-подавления в отделении интенсивной терапии

Исследование оценивает использование EEG Foundation Models для обнаружения всплесков-подавления на основе событий в условиях отделения интенсивной терапии без калибровки, специфичной для пациента. REVE-base достиг высшего значения F1-с코ра на основе событий — 0,868, и сократил ошибку всплесков в минуту на 52,1% по сравнению с EEGNet и на 36,2% по сравнению с адаптивным порогом, что демонстрирует превосходную производительность. Результаты аблации показывают, что полная мелкая настройка превосходит другие стратегии, а предобученный REVE-base превосходит случайную инициализацию на 0,723 пункта F1 при 25% обучающих данных, что подчеркивает ценность предобучения для ограниченных наборов данных.

arxiv arXiv cs.AI · 7 д назад

Скрытая эволюция скрытого визуального контекста в моделях с визуальным языком

Визуальные токены поступают в большие языковые модели в виде первичных, неструктурированных сигналов. Их внутреннее преобразование и интеграция зависят от архитектуры — либо как встроенные контекстные запросы, либо как вводимые в промежуточные слои — что приводит к различным путям эволюции визуальных представлений и характеристик частоты. Мы обнаруживаем, что внимание само по себе недостаточно; производительность определяется качеством визуальных представлений на каждом слое в различных схемах интеграции.

arxiv arXiv cs.AI · 7 д назад

Внимание-ориентированный SAC для прогнозирования пористости в аддитивном производстве

Многоуровневый экстрактор признаков на основе внимания, интегрированный с Soft Actor-Critic, улучшает прогнозирование пористости и оптимизацию параметров процесса в лазерной сварке порошков. Метод достиг значения сходимости 322,79 за 14 эпизодов, превосходя DQN, PPO, TD3 и обычный SAC по скорости сходимости и стабильности.

arxiv arXiv cs.AI · 7 д назад

MakeupMirror улучшает сохранение лицевых характеристик в моделях диффузии

MakeupMirror, модель передачи макияжа на основе диффузии, улучшает сохранение лицевых черт и оттенка кожи по сравнению с Stable-Makeup. Оно обеспечивает увеличение схожести при распознавании лиц на 60% и снижение разницы оттенка кожи на 50%, с 94% экспертной оценкой и задержкой инференса 0,7 секунды на разнообразных наборах данных.

arxiv arXiv cs.AI · 7 д назад

Гибридный диффузионный трансформер для редактирования аудио с использованием инструкций

Гибридная двухэтапная архитектура диффузионного трансформера обеспечивает эффективное и точное редактирование аудио с использованием инструкций. Она использует семантическую синхронизацию от грубого к детальному уровню через совместное внимание на низком разрешении, а затем уточнение редактирования с помощью альтернирующего совместного и перекрестного внимания на высоком разрешении. Метод обеспечивает лучшие результаты на сложных задачах редактирования с улучшенной эффективностью и компактной моделью.

arxiv arXiv cs.AI · 7 д назад

Сенсорно-моторные модели мира для восприятия, синхронизированного с действиями

Новая сенсорно-моторная модель мира (SMWM) обучает компактные, действия-связанные скрытые представления на основе отложенных траекторий. Она использует регуляризацию обратных динамик для предотвращения коллапса представлений и синхронизирует скрытые состояния с управляемыми степенями свободы окружающей среды, обеспечивая стабильное обучение без сложных регуляторов или замороженных компонентов. SMWM достигает конкурентоспособной производительности планирования в задачах 2D и 3D управления.

arxiv arXiv cs.AI · 7 д назад

Двухагентная архитектура для проверенной перевода между моделями

Двухагентная архитектура преобразует протоколы экспериментов на естественном языке в исполняемые команды для платформ роботизированных лабораторий. Она использует агента парсера и движок отображения на основе правил для перевода протоколов, при этом агент проверки с использованием гетерогенной нейросети обеспечивает точность и запускает самокоррекцию. Архитектура успешно позволяет реализовывать автономное выполнение экспериментов на микроплашках, таких как тест Брадфорда.

arxiv arXiv cs.AI · 7 д назад

ScaffoldAgent: Утилиты-ориентированный динамический оптимизацией структуры

ScaffoldAgent вводит рамку с утилиты-ориентированным управлением для динамической оптимизации структуры в открытых глубоких исследованиях. Он моделирует эволюцию структуры через операции расширения, сжатия и редактирования, управляемые механизмом обратной связи, оценивающим прирост поиска, структурную целостность и качество генерации. Эксперименты показывают, что он улучшает генерацию длинных отчётов и фактическую опору по сравнению с существующими агентами.

arxiv arXiv cs.AI · 7 д назад

Адаптивное обучение с помощью LLM повышает вовлеченность и эффективность

Новая адаптивная система обучения с помощью LLM использует поддержку тематических запросов для повышения вовлеченности студентов. Она превосходит статические модели в симуляции и демонстрирует реальную эффективность, снижая количество взаимодействий на 3 шага и увеличивая коэффициент преобразования упражнений до 28,1% с помощью стохастической стратегии.

arxiv arXiv cs.AI · 7 д назад

RACL: Слой управления агентом для мета-оптимизации обучения

RACL вводит агента принятия решений, который управляет поведением мета-оптимизационного поиска, не заменяя оптимизаторы или изменяя ограничения. Он улучшает или сохраняет ключевые политики в экспериментах по маршрутизации транспортных средств, снижая среднюю стоимость на 8,337% по сравнению с Fixed и на 1,605% по сравнению с политиками, активированными при стагнации, без значительного увеличения вычислительной нагрузки.

arxiv arXiv cs.AI · 7 д назад

BIM-Edit: Оценка LLM для редактирования BIM на основе IFC

BIM-Edit представляет бенчмарк для оценки больших языковых моделей на редактировании с помощью естественного языка строительных информационных моделей в формате IFC. В нём содержится 324 задачи редактирования в 11 реальных и 36 синтетических строительных моделях, оценивающих геометрическую точность, семантическую корректность и топологическую согласованность. Наилучшая модель достигает среднего балла только 49,5%, при этом ни одна модель не решает более чем 3,4% задач, что подчёркивает существенный разрыв в способностях LLM для инженерных рабочих процессов.

arxiv arXiv cs.AI · 7 д назад

Качество эссе в больших языковых моделях обнаруживается в линейно доступных формах

Исследование показало, что информация о качестве эссе в больших языковых моделях закодирована в линейно доступных формах в их скрытых представлениях. Эти представления появляются слоем за слоем, остаются стабильными при разных запросах и демонстрируют частичную трансферность при различных запросах на эссе, при этом более длинные эссе всё больше зависят от более глубоких слоёв модели. Исследование выявило конкретные "нейроны оценки эссе", активация которых сильно коррелирует с оценками и может быть изменена при целенаправленных вмешательствах.

arxiv arXiv cs.AI · 7 д назад

Кадровая система семантического рассуждения на основе гиперграфов

Новая система HISR использует гиперграфы для моделирования сложных взаимосвязей между несколькими сущностями, повышая точность семантической интерпретации на 36,6% по сравнению с существующими методами. Она обеспечивает надежное семантическое выводы при частичном потере информации, путем отображения сущностей и высших порядковых отношений в специализированные семантические подпространства.

arxiv arXiv cs.AI · 7 д назад

MedRLM: Рекурсивная мультимодальная интеллектуальная система здравоохранения

MedRLs обеспечивает долгосрочное клиническое мышление за счёт рекурсивного анализа данных пациента в тексте, изображениях, сенсорах и руководствах. Оно интегрирует специализированные агенты и граф памяти клинических доказательств для связи наблюдений с доказательствами и критериями редиректа, поддерживая сенсорное триггерное мышление и ревью клинистов с учётом неопределённости.

arxiv arXiv cs.AI · 7 д назад

Бенчмарк RS-Neg и метод NeFo для понимания отрицания в МЛМ-моделях дистанционного зондирования

RS-Neg — первый бенчмарк для оценки понимания отрицания в задачах дистанционного зондирования на уровне регионов и уровне сцены. Он показывает, что продвинутые МЛМ-модели дистанционного зондирования испытывают трудности с отрицанием, проявляя халлюцинации и падение производительности. NeFo, метод тестового обучения, улучшает понимание отрицания, используя только 5% непримечаемых тестовых данных и хорошо обобщается на новые задачи.

arxiv arXiv cs.AI · 7 д назад

HilDA: иерархическое дистиллирование с диффузией для самообучения предобучения LiDAR

HilDA представляет собой самообучающуюся предобучающую рамку для LiDAR-архитектур, использующую иерархическое дистиллирование и диффузионное временной занятости для улучшения семантического и геометрического понимания. Оно достигает лучших результатов на бенчмарках дистиллирования межмодальных данных и превосходит предыдущие методы по 3D-обнаружению объектов, прогнозированию сцены и семантического заполнения.

arxiv arXiv cs.AI · 7 д назад

Введение метрики нарушения правил для логической согласованности

Мы вводим метрику нарушения правил (RVS), которая оценивает насколько хорошо предиктивные модели соблюдают логические правила. RVS различает жесткие и мягкие правила, работает с любыми реляционными наборами данных и моделями, и может быть вычислен с помощью запросов на SQL для гипер-правил. Оценка на нескольких бенчмарках показывает, что модели с схожей предиктивной точностью могут сильно различаться по логической согласованности, что подчеркивает способность RVS выявлять поведение, упущенного стандартными метриками.