Reasoning models — korshunov.ai

Reasoning models Страница 1 / 35

RaDaR: ИИ-модель улучшает диагностику редких заболеваний

RaDaR, компактная модель логического мышления, превзошла другие открытые модели по диагностике редких заболеваний. В рандомизированном исследовании RaDaR повысил точность диагностики врачей на 21,44 процентных пункта по сравнению с поиском в интернете.

arxiv arXiv cs.CL · 2 д назад

Межязыковое исследование параметрических знаний

Межязыковые стратегии промптов улучшают извлечение фактических знаний в 17 различных языках. Подход превосходит масштабирование на родном языке по эффективности вычислений и усиливает межязыковую согласованность за счёт превышения результатов по точности.

arxiv arXiv cs.CL · 2 д назад

Qwen-AgentWorld: Языковые модели мира для общих агентов

Qwen-AgentWorld-35B-A3B и Qwen-AgentWorld-397B-A17B — это первые языковые модели мира, которые имитируют агентские среды в семи областях с помощью длинной цепи мышления. Обученные с помощью трехэтапной схемы — CPT, SFT и RL — эти модели превосходят существующие передовые модели на AgentWorldBench, критерии, полученные из реальных взаимодействий пяти моделей на девяти установленных задачах.

arxiv arXiv cs.CL · 2 д назад

Исследования межязычных пословиц выявили сохранение культурного значения в больших языковых моделях

Исследование оценивает, как большие языковые модели сохраняют культурное значение при генерации рассказов на основе эквивалентных пословиц в 15 языках. Результаты показывают семантическую согласованность в моральных уроках, с систематическими сдвигами в агентности и структуре рассказа, и сильной сходимостью между семействами моделей. Исследование подчеркивает, что текущие оценки могут переоценивать сохранение культурного значения, фокусируясь только на семантической схожести.

arxiv arXiv cs.CL · 2 д назад

Анонимизация RAG за счёт семантической переписки многоагентной системы

Многоагентная система очищает извлечённый контент, удаляя чувствительные идентификаторы с помощью семантической переписки, что снижает утечку приватности в целевых атаках. Система сохраняет высокую контекстуальную точность с показателем BLEU-1 в 0,122, превосходя показатель SAGE в 0,117, и работает как асинхронный предварительный этап без добавления задержки к онлайн-инференсу.

arxiv arXiv cs.LG · 2 д назад

Память-эффективная фильтрация графа для масштабируемого коллаборативного фильтра

Mem-GF вводит метод память-эффективной фильтрации графа, который аппроксимирует полиномиальные граф-фильтры с помощью подпространств Крылова, что позволяет избежать хранения полного графа схожести элементов. Метод достигает снижения использования памяти до 5,74 раза и ускорения выполнения до 4,38 раз, при этом сохраняя высокую точность рекомендаций по сравнению с современными методами, и эффективно масштабируется на датасеты с десятками миллионов взаимодействий.

arxiv arXiv cs.LG · 2 д назад

Сжатие трансформеров в рекуррентные трансформеры для эффективного использования памяти

Новая методика сжатия передает стратегию сжатия наблюдений полных историй трансформеров в рекуррентные модели. Обучая учителя модели сжимать истории наблюдений в фиксированные размеры, метод синхронизирует память ученика с сжатием учителя. Это позволяет рекуррентным трансформерам достигать производительности, близкой к полному использованию истории наблюдений, при линейной сложности, что делает их применимыми для задач робототехники с длинными горизонтами.

arxiv arXiv cs.LG · 2 д назад

LIG: Методы интегрированных градиентов на уровне слоев для анализа потоков в трансформерах

LIG расширяет метод интегрированных градиентов на отображения множества-в-множество в трансформерах, позволяя проводить атрибуцию на уровне токенов внутри слоев. Метод анализирует согласованность атрибуции на уровне модулей и на уровне слоев и отслеживает поток информации через отдельные вклады внимания и MLP, используя вектор вложения целевого токена и нулевые или нулевые вклады внимания как базовые значения. LIG работает на границах модулей без необходимости переобучения или использования специальных интерпретаторов, предоставляя диагностический инструмент для анализа внутренних структур трансформеров.

arxiv arXiv cs.LG · 2 д назад

Геометрия стоимости веры в шумной инференции

Модель инференции конечной машины использует геометрию стоимости для количественной оценки переходов веры, объединяя оптимальный транспорт с информацией Фишера. В рамках этой структуры выявляется стенка, честность и жесткость в пространствах веры, при этом гауссовая вера достигает максимальной гиперболической кривизны. Термодинамика определяет единицу стоимости, и геометрический нижний предел точности расходится при уверенности, при этом значение -1/4 представляет собой ключовую масштабную величину.

arxiv arXiv cs.AI · 2 д назад

Профильная ссылка в фундаментализации ЛЛМ

В статье утверждается, что ссылка в больших языковых моделях не является фиксированной связью, а представляет собой профильную, контекстуальную и числовую структуру. Предлагается, что ЛЛМ фундаментализируют ссылки через лингвистические следы, параметризованные через оптимизацию, при этом профили ссылок распределяются и активируются через контекстуальную вычислительную обработку, подтвержденную результатами механической интерпретируемости.

arxiv arXiv cs.AI · 2 д назад

Языковое расстояние влияет на достижение согласия в нейронных клеточных автоматах

Исследование нейронных клеточных автоматов показывает, что языковое расстояние замедляет достижение согласия и вызывает умеренное групповое отклонение без полного распада. Коллектив, обученный под разными протоколами коммуникации, остается устойчивым к несоответствию, в отличие от коллектива, обученного единым способом, и эти результаты одинаковы для структур в виде кольца и двумерной сетки, с аналогиями в динамике человеческих групп.

arxiv arXiv cs.AI · 2 д назад

В коherence-иллюзиях голландских LLMs раскрываются

Модели на голландском языке демонстрируют иллюзии целостности, аналогичные человеческим читателям. Метрики сюрприза и энтропии внимания показывают, что модели подвержены обману со стороны контекстных совпадений, при этом энергия ассоциативной памяти выявляет механизмы дискурсной целостности.

arxiv arXiv cs.AI · 2 д назад

ARCO: адаптивный рубрик с когенерацией для агентов на основе многошаговых ЛЛМ

ARCO представляет рамку рубрики, которая позволяет осуществлять присвоение кредитов на уровне шагов для агентов на основе многошаговых ЛЛМ. Он одновременно обновляет общую модель с головками генерации и оценки, позволяя содержанию рубрики и функции оценки когенерироваться через данные на-политики, что улучшает производительность и интерпретируемость на различных тестах.

arxiv arXiv cs.AI · 2 д назад

FastGAN и модели на основе трансформеров улучшают обнаружение вредителей на бобовых

Исследование использует FastGAN для генерации 10 000 синтетических гиперспектральных изображений листьев бобовых, сохраняя реальные спектральные и структурные характеристики. Модели на основе трансформеров, в частности Vision Transformer, достигают наивысшей точности и F1-оценок при классификации здоровых и поражённых вредителями листьев, превосходя классические CNN и демонстрируя улучшенное обнаружение болезней с уменьшением ложных отрицательных результатов.

arxiv arXiv cs.AI · 2 д назад

Топологические нейронные динамики: моделирование последовательностей по нейронам

Топологические нейронные динамики (TND) вводят рамку моделирования последовательностей по нейронам, при которой каждый нейрон развивается независимо через структуру направленного графа. В задаче копирования поведения одного игрока в Pong TND достигает среднего значения 17,47 последовательных перехватов за круг, превосходя все базовые модели более чем в три раза.

arxiv arXiv cs.AI · 2 д назад

NASDAQ: Усреднённая динамика наблюдений с усилением Q-обучения

NASDAQ решает задачу низкомерных наблюдений в обучении с усилением, нормализуя пространства наблюдений для балансировки потерь восстановления по измерениям. Фреймворк объединяет обучение оценок с короткосрочным предсказанием оценок и следующего наблюдения, достигая конкурентоспособных или превосходных результатов с меньшим временем обучения по сравнению с существующими методами.

arxiv arXiv cs.AI · 2 д назад

Объяснения на основе влияния для оценки степени дисартирии

Новый фреймворк обеспечивает объяснения на уровне инстансов для оценки степени дисартирии, идентифицируя поддерживающие и конкурирующие обучающие образцы. Используя градиентные оценки влияния, он связывает решения модели с воспринимаемыми эталонными случаями, обеспечивая аудитируемые и интерпретируемые прогнозы через эксперименты с контролируемым удалением.

arxiv arXiv cs.AI · 2 д назад

TASER: расширение навыков на основе задач для непрерывного обучения в гетерогенных задачах

TASER представляет рамку, которая динамически расширяет и направляет атомарные навыки для непрерывного обучения в гетерогенных задачах. Он снижает катастрофическое забвение и повышает пластичность за счёт обеспечения семантической различимости и эффективного распределения ресурсов за счёт механизмов обнаружения и маршрутизации навыков. Оценка на HeteroCLBench — бенчмарке из 19 различных задач по 9 когнитивным измерениям — показывает, что TASER превосходит существующие базовые решения.

arxiv arXiv cs.AI · 2 д назад

Модель социального мира для долгосрочной социальной интеллектуальности

Модель социального мира разбивает социальные взаимодействия на пять измерений для обеспечения обучения в замкнутом цикле. Она позволяет открытым источникам моделей стабильно улучшаться и сохранять социальные способности, превосходя базовые модели и достигая ключевых показателей, сравнимых с закрытым Gemini 3 Flash, без потери при изменении уровня сложности.

arxiv arXiv cs.AI · 2 д назад

Ремонт графа Рамануя уменьшает перенасыщение в ГНН

Метод Рамануя использует графы Рамануя для снижения перенасыщения в графовых нейронных сетях за счет обеспечения неотрицательной кривизны сопротивления. Метод сохраняет локальную связность, при этом обеспечивает эффективный поток информации на большие расстояния, превосходя девять наиболее передовых методов переподключения.