Reasoning models — korshunov.ai

Reasoning models Страница 1 / 35

ConTex: Глобальное генерирование контрапротивных сценариев для прогнозирования временных рядов

ConTex переформулирует генерацию контрапротивных сценариев для прогнозирования временных рядов как задачу глобально согласованного вмешательства. Оно достигает уровня валидности, соответствующего самым современным достижениям, с редкими, интерпретируемыми вмешательствами, снижает вычислительные затраты в 12-36 раз и позволяет проводить реальное включение за примерно 0,007 секунд.

arxiv arXiv cs.LG · 9 д назад

ScaFE: Использование LLM для извлечения клинически значимых признаков шрамов

ScaFE переосмысляет большие языковые модели как инженеров признаков для классификации шрамов, генерируя исполняемый код на языке Python из клинических критериев для извлечения интерпретируемых признаков. Фреймворк достигает превосходной производительности при ограниченном объеме данных, сохраняет приватность, обрабатывая изображения локально, и генерирует клинически обоснованные признаки, соответствующие установленным шкалам, таким как шкала Ванкувера.

arxiv arXiv cs.LG · 9 д назад

NoiseTilt: Noise-Tilted Reverse Kernels для выравнивания вознаграждения в диффузионных моделях

NoiseTilt вводит NTRK, диффузионный образовательный сэмплер, который вводит градиенты вознаграждения через компонент шума без изменения обратного ядра. Используя оператор белого шума, NTRK безопасно смещает шум в сторону высоких вознаграждений, сохраняя качество образцов при обеспечении сильного направления. В задаче эстетического генерирования NTRK достигает превосходной производительности по вознаграждению при 25 NFE, снижая вычислительные затраты на 20× по сравнению с существующими базовыми моделями.

arxiv arXiv cs.LG · 9 д назад

Алгоритм второго порядка поиска причинности на основе тензоров

TSCD использует ковариационные матрицы из наблюдаемых и интервенционных данных для определения причинных структур в линейных структурных уравнениях на графах ДАГ. Он требует только несвязанных шумов и обеспечивает идентифицируемые порядки и параметры причинности с логарифмическим количеством интервенций, масштабируясь до сотен переменных, при этом сохраняя устойчивость к шуму и конкурируя с существующими методами.

arxiv arXiv cs.LG · 9 д назад

Составная обобщение в рациональных процессах языковых моделей

Модель иерархического скрытого выбора показывает, что подкрепленная настройка и обучение с помощью вознаграждения работают совместно для обеспечения составного обобщения в языковых моделях. Подкрепленная настройка предоставляет сырье модулей, в то время как обучение с помощью вознаграждения идентифицирует и переключает атомные модули из сложных следов для решения новых задач. Обучение на сложных следах приводит к более сильному обобщению, чем обучение отдельных модулей, и был найден эффективный протокол, при котором подкрепленная настройка обеспечивает покрытие модулей, а обучение с помощью вознаграждения стимулирует изучение новых составов.

arxiv arXiv cs.LG · 9 д назад

OmniPlan: адаптивная система для своевременного и близкого оптимального планирования сети

OmniPlan представляет адаптивную систему, которая преобразует естественные языковые намерения пользователей в количественные предпочтения с использованием крупного языкового модели. Она динамически выбирает между экспертами на основе смешанной целочисленной оптимизации, онтологий и глубокого обучения с подкреплением, чтобы обеспечить как своевременность, так и близкую оптимальность при планировании сети. Оценки на распределённых рабочих нагрузках машинного обучения показывают сокращение задержки до 97,8% и снижение потребления ресурсов на 11,5%.

arxiv arXiv cs.LG · 9 д назад

Изучение справедливых парето-оптимальных политик в многокритериальной робастной обучении

Статья представляет рамку для многополитической многокритериальной робастной обучении, которая обучает набор парето-оптимальных политик, обеспечивая справедливость в различных предпочтениях пользователей. В ней доказывается, что справедливые политики остаются в выпуклой области покрытия для вогнутых функций благосостояния, и предлагается три алгоритма, которые учитывают нестационарные и стохастические динамики политики. Эмпирические результаты показывают, что эти методы эффективно обучают справедливые политики, адаптируемые к различным предпочтениям пользователей.

arxiv arXiv cs.LG · 9 д назад

Продолжительность работы как уменьшающийся капитал в памяти робота

Память на флеш-накопителе робота деградирует с каждой записью, образуя необновляемый актив. Модель цен, учитывающая износ, использует теневой ценовой коэффициент $η$ для руководства размещением памяти между ОЗУ, НВМ и облаком, при оптимальной маршрутизации зависит от того, растёт ли значение задачи с сохранением памяти. Знак ассоциации между значением и записью $χ$ варьируется в зависимости от развертывания: положительный при долгосрочном управлении, нулевой при краткосрочных задачах и отрицательный при телеманипуляции. Ограничение бюджета износа действует только на низкокачественные памяти QLC/eMMC, и хотя маршрутизация с учётом износа согласуется с задачевым значением, реальные улучшения производительности остаются не подтверждёнными в данных.

arxiv arXiv cs.LG · 9 д назад

Колмогоровская регрессия для устойчивых диффузионных политик

Обратное уравнение Колмогорова поднимает диффузионные политики в пространство Камерона-Мартин, заменяя стохастическое сопоставление на детерминированное дифференциальное уравнение. Этот подход обеспечивает границы сходимости, связанные с эффективным рангом ядра, улучшает регулярность траекторий и позволяет использовать детерминированный детектор сбоев без вознаграждений. Проверка показала на 17% больший результат на PushT и на 28,4% меньшую RMSE на производственной линии, при снижении количества сбоев на 96% за счёт сертификации по уравнению Гамильтона-Якоби.

arxiv arXiv cs.LG · 9 д назад

Выпущена база данных с метками ATT&CK, объединяющая логи из различных источников в области кибербезопасности

Новая база данных объединяет системные, сетевые и браузерные логи из 870 сессий Windows, включая 70 атак и 800 случаев без нарушений. В ней присутствуют метки на уровне каждого события с идентификаторами техник MITRE ATT&CK для 12 тактик и 53 техник, используя реальные инструменты атак, такие как RAT и туннели C2. Настройка трех малых языковых моделей (SLM) с использованием LoRA повысила точность классификации блоков до 90–97% и достигла точности совпадения до 42% при идентификации техник, что демонстрирует сильную способность к логическому мышлению, несмотря на существующие трудности.

arxiv arXiv cs.LG · 9 д назад

Модели циклического мира достигают эффективности в 100 раз по параметрам

Модели циклического мира (LoopWM) вводят архитектуру на основе циклов, которая итеративно уточняет скрытые состояния среды с использованием трансформатора с совместными параметрами. Этот подход обеспечивает эффективность в 100 раз по параметрам по сравнению с традиционными моделями мира, адаптируя глубину вычислений к каждой стадии предсказания. LoopWM устанавливает итеративную глубину скрытого состояния как новую размерность масштабирования для моделирования мира.

arxiv arXiv cs.LG · 9 д назад

Изучение политики красного агента на основе наблюдений для нейросимвольных киберагентов

Предложена техника обучения политики с использованием имитационного обучения для предсказания действий красного агента в частично наблюдаемых киберсредах. Метод обучает политики красного агента на основе наблюдений за сетью и действий защитника, позволяя нейросимвольным кибер-агентам точно предсказывать атаки и адаптировать защиту в различных симулированных сценариях.

arxiv arXiv cs.LG · 9 д назад

AdaVoMP: адаптивные объемные поля механических свойств

AdaVoMP предсказывает точные пространственно-изменяющиеся модули Юнга, коэффициенты Пуассона и плотность для 3D объектов на разных разрешениях. Используя разреженную адаптивную структуру вокселей и разреженный трансформерный кодировщик-декодер, AdaVoMP достигает разрешения в 16^3 раз выше, чем у предыдущих методов, с улучшенной точностью и меньшими вычислениями на этапе тестирования.

arxiv arXiv cs.CL · 9 д назад

LLMs предсказывают деменцию и депрессию на основе клинической речи

Исследование использует открытые большие языковые модели для оценки степени деменции и депрессии на основе клинических интервью. Модели достигают точного нуля-шот-предсказания депрессии (MAE 0,60) и улучшенной оценки деменции с извлечением признаков (MAE 0,78), снижая ошибки до 35%. Транскрипции с учетом пауз соответствуют ручным транскрипциям, что поддерживает автоматизированные потоки фильтрации для невропсихиатрических расстройств.

arxiv arXiv cs.CL · 9 д назад

Влияние исходного языка в межязыковом обучении в контексте

Исследование показывает, что предпосылки, основанные на мелкой настройке, относительно межязыкового переноса не применимы к обучению в контексте. Исследование показывает, что выбор исходного языка в ICL требует новых эвристик, особенно в генеративных задачах, где языковая путаница является ключевой проблемой.

arxiv arXiv cs.CL · 9 д назад

LegalHalluLens: аудит галлюцинаций в правовом ИИ

LegalHalluLens представляет рамку для аудита галлюцинаций ИИ в правовых контекстах, анализируя профили галлюцинаций при вводе по четырём категориям утверждений. Оно выявляет разрыв в 38-40 баллов между утверждениями о обязательствах/числовых и временных утверждениях, и показывает, что две системы с одинаковыми показателями 52% галлюцинаций могут иметь противоположные направления риска. Рамка использует Индекс направления риска и калиброванные дебатные потоки для снижения выявления фальшивых утверждений на 45% и повышения ответственности при внедрении правового ИИ.

arxiv arXiv cs.CL · 9 д назад

ProvenanceGuard: проверка достоверности с учетом источника для агентов на основе LLM с использованием MCP

ProvenanceGuard вводит проверяющий модуль с учетом источника для агентов на основе LLM с использованием MCP, который обнаруживает пересечение источников путем направления утверждений к конкретным источникам доказательств и сравнения заявленного принадлежности с фактическим владением источником. Он достигает значения F1 по блокам 0,802 и точности по источникам 0,858 на 260 утверждениях, имеющих источники, превосходя базовые модели без учета источника, и обнаруживает все введенные обмены принадлежности в 50 клинических тестах.

arxiv arXiv cs.CL · 9 д назад

SkillWeaver: Составная маршрутизация навыков для агентов на основе языковых моделей

SkillWeaver вводит рамку декомпозиции-получения-составления для агентов на основе языковых моделей, формализующую проблему составной маршрутизации навыков. Он достигает точности декомпозиции на уровне 67,7% с помощью итеративной декомпозиции с учетом навыков (SAD), улучшая результат с 51,0% с p-значением менее 10^-6, и снижает использование окна контекста более чем на 99%.

arxiv arXiv cs.CL · 9 д назад

Синтетический личный опыт ИИ в поддержке уходчика

Модели локальных языков могут генерировать ответы, похожие на реакции сверстников, имитирующие личные истории, создавая ложное впечатление о личном опыте. Психолингвистический анализ показывает, что люди используют больше личных и ориентированных на прошлое конструкций, чем ИИ, и ИИ часто фабрикует основу опыта без реального опыта. Этот парадокс синтетического личного опыта может обманывать уходчика, что требует механизмов для различения поддерживающей формулировки от фабрикованного опыта.

arxiv arXiv cs.CL · 9 д назад

Географическая предвзятость в больших языковых моделях из метаданных пользователей

Исследование показывает, что даже нейтральные запросы вызывают ответы, зависящие от региона, в больших языковых моделях из-за метаданных пользователей. Потеря местоположения увеличивается в некоторых моделях до 793 раз, и использование значения "Неизвестно" вместо метаданных местоположения всё равно вызывает значительную предвзятость, что указывает на то, что сам профиль пользователя действует как сигнал условий.