Reasoning models
arxiv arXiv cs.AI · 2 д назад

TASER: расширение навыков на основе задач для непрерывного обучения в гетерогенных задачах

TASER представляет рамку, которая динамически расширяет и направляет атомарные навыки для непрерывного обучения в гетерогенных задачах. Он снижает катастрофическое забвение и повышает пластичность за счёт обеспечения семантической различимости и эффективного распределения ресурсов за счёт механизмов обнаружения и маршрутизации навыков. Оценка на HeteroCLBench — бенчмарке из 19 различных задач по 9 когнитивным измерениям — показывает, что TASER превосходит существующие базовые решения.

arxiv arXiv cs.AI · 2 д назад

Модель социального мира для долгосрочной социальной интеллектуальности

Модель социального мира разбивает социальные взаимодействия на пять измерений для обеспечения обучения в замкнутом цикле. Она позволяет открытым источникам моделей стабильно улучшаться и сохранять социальные способности, превосходя базовые модели и достигая ключевых показателей, сравнимых с закрытым Gemini 3 Flash, без потери при изменении уровня сложности.

arxiv arXiv cs.AI · 2 д назад

Ремонт графа Рамануя уменьшает перенасыщение в ГНН

Метод Рамануя использует графы Рамануя для снижения перенасыщения в графовых нейронных сетях за счет обеспечения неотрицательной кривизны сопротивления. Метод сохраняет локальную связность, при этом обеспечивает эффективный поток информации на большие расстояния, превосходя девять наиболее передовых методов переподключения.

arxiv arXiv cs.AI · 2 д назад

Модели Transformer чрезвычайно чувствительны к шуму в данных о траектории

Исследование показало, что модели прогнозирования траектории на основе Transformer значительно ухудшаются при наличии шумных данных о состоянии объектов. Точность снижается в 1,3 раза при слабом шуме и до 3,9 раз при реальных высоких уровнях шума, что подчеркивает их чувствительность и необходимость использования шумных, реальных данных для обучения и разработки стратегий смягчения.

arxiv arXiv cs.AI · 2 д назад

Оценка LLM для обнаружения уязвимостей в веб-приложениях

Исследование оценивает шесть LLM на обнаружение реальных уязвимостей в веб-приложениях в плагинах WordPress, выявляя, что показатели обнаружения варьируются в зависимости от модели и дизайна запроса. Claude Opus 4.6 достиг наивысшего показателя обнаружения — 63%, в то время как Qwen 3.5 достиг лишь 35%, и ни одна модель не стабильно идентифицировала все базовые уязвимости на всех итерациях.

arxiv arXiv cs.AI · 2 д назад

Оценка бенчмарка малых языковых моделей для арабской NLP

Бенчмарк из 240 арабских тестовых заданий в восьми областях и десяти навыках оценивает двенадцать малых языковых моделей в нулевом режиме. Gemma 3 (12B) достигла наивысшей общей оценки (4,548/5), за ним следуют Aya и C4AI Command Arabic, производительность которых связана больше с арабской настройкой и выполнением инструкций, чем с размером модели. Общие недостатки включают утечку промпта, халлюцинации и слабое выполнение задач.

arxiv arXiv cs.AI · 2 д назад

Модель объяснимой ИИ для депрессии, связанной с карьерой, у студентов университетов

Новая рамка объяснимой ИИ использует структурированные данные поведения и признаки эмоций лица для обнаружения ранних признаков депрессии и тревожности, связанных с карьерой, у студентов университетов. Модель, оцененная на данных студентов из Пакистана, достигает значения F1-меры 89,12% и выявляет ключевые маркеры, такие как избегание прямого взгляда и социальная изоляция, что соответствует психологическим теориям.

arxiv arXiv cs.AI · 2 д назад

Разделение декларативных и процедурных знаний в моделях визуально-языковых-действий

w$^{2}$VLA вводит модульную модель визуально-языковых-действий, которая разделяет декларативные и процедурные знания. Структурирование потока информации позволяет обеспечить надежное копирование поведения и нулевое переносимость навыков на новые, несхожие объекты.

arxiv arXiv cs.AI · 2 д назад

Память-эффективная фильтрация графа для масштабируемого краткосрочного фильтрации

Mem-GF вводит метод память-эффективной фильтрации графа, который аппроксимирует полиномиальные граф-фильтры с помощью подпространств Крылова, избегая хранения полного графа схожести элементов. Метод достигает снижения использования памяти до 5,74 раза и ускорения выполнения до 4,38 раз, при этом превосходя современные методы по точности и масштабируемости на датасетах с десятками миллионов взаимодействий.

arxiv arXiv cs.AI · 2 д назад

Обнаружение ошибок в процедуре без обучения с использованием моделей видео-языка

Единая безобученная система ZeProM использует предобученную модель видео-языка для одновременного выполнения обнаружения ошибок в процедуре и временного разделения действий. Она достигает улучшения на 4,4 пункта по EDA и на 2,0 пункта по F1@.5 на задачах EgoPER, что соответствует или превосходит результаты обучающих методов без специфического обучения для задачи.

media r/LocalLLaMA · 2 д назад

Бенчмарк LLM в медицинской синтаксисе: пропуски превосходят выдумки

Бенчмарк 8 LLM на 300 синтетических диалогов врачи-пациенты выявил 12 высококритичных выдумок и 520 клинически значимых пропусков. Пропуски были значительно чаще, чем выдумки: DeepSeek показал отличные качества в стилистике и стоимости, но упустил множество фактов о безопасности, в то время как Claude Opus имел наименьшее количество пропусков, но худшую стилистическую оценку.

media r/LocalLLaMA · 2 д назад

VibeThinker: модель с 3 миллиардами параметров побеждает Opus 4.5 в задачах логического мышления

Модель VibeThinker с 3 миллиардами параметров превосходит Opus 4.5 в задачах логического мышления с использованием новой методики обучения SFT+GRPO. Модель была представлена в статье, доступной на arXiv, с подробностями, размещёнными в посте на Reddit.

media r/LocalLLaMA · 2 д назад

Баиду выпустил модель одношагового долгосрочного парсинга

Баиду представил новую модель парсинга, называемую одношаговым долгосрочным парсингом. Модель позволяет эффективно понимать текст на долгосрочной основе с минимальными объемами обучающих данных, как это продемонстрировано в репозитории GitHub.

lab OpenAI News · 2 д назад

GPT-5 Pro помог решить загадку иммунологии, существовавшую три года

GPT-5 Pro предоставил ключевые сведения о поведении Т-клеток, решив загадку иммунологии, существовавшую три года. Открытие может продвинуть исследования в области онкологии и аутоиммунных заболеваний.

media r/LocalLLaMA · 2 д назад

Лучшие локальные модели для рассуждений в агентной ИИ

Создатель EverFern спрашивает, какие локальные модели лучше всего подходят для агентных рабочих процессов и использования в браузере или на компьютере. Он отмечает, что интеллект модели редко является ограничивающим фактором, и что надежность и системы восстановления важнее, чем выбор модели.

media r/LocalLLaMA · 2 д назад

Человеческая оценка показывает, что GLM-5.2 конкурирует с лучшими моделями

Человеческая оценка на лидерборде Design Arena показывает, что GLM-5.2 демонстрирует почти такое же качество, как Fable 5 в задачах разработки игр, занимая лишь одну ступень ниже. Модель, основанная на открытых весах и лицензии MIT, оценивается как равнозначная по возможностям лучшим доступным моделям Claude, что указывает на то, что стандартизированные бенчмарки могут уже не отражать реальную производительность.

media r/LocalLLaMA · 2 д назад

SFT или RL-первый для обучения агента Qwen 3.5 с использованием инструментов?

Пользователь спрашивает, рекомендуется ли все еще последовательное применение надзирательного мелкого настройки (SFT) за которым следует обучение с помощью реверсной связи (RL), для обучения агентов Qwen 3.5 4B или 9B для многократного использования инструментов, или же более эффективны подходы на основе только RL. В посте также ищется руководство по проектированию вознаграждения и обработке параллельного выполнения инструментов в рабочих процессах агентов.

arxiv arXiv cs.CL · 2 д назад

Групповая графовая оптимизация политики для долгосрочной агентной RL

Групповая графовая оптимизация политики (G2PO) вводит графовый подход для улучшения долгосрочной агентной реверсной обучения, преобразуя взаимодействия в траектории в графы состояний-переходов. Она позволяет осуществлять групповую агрегацию оценки состояния и вычисление преимуществ на основе рёбер, улучшая присвоение кредитов и снижая дисперсию, и достигает улучшения показателя успешности до 22,2% по сравнению с GRPO на бенчмарках WebShop, ALFWorld и AppWorld.

arxiv arXiv cs.CL · 2 д назад

Неограниченный OCR: парсинг, похожий на человеческий, с постоянным использованием памяти

Неограниченный OCR вводит внимание сдвига окна ссылки (R-SWA), чтобы имитировать человеческую рабочую память, позволяя транскрибировать длинные документы без роста использования памяти. Заменяя слои внимания декодера в DeepSeek OCR, R-SWA сохраняет постоянный кэш K и V и достигает полной обработки документа за один проход вперед при ограничении в 32K токенов. R-SWA также применим к задачам аудио-распознавания и перевода.

arxiv arXiv cs.CL · 2 д назад

Двухканальный фреймворк для преобразования LaTeX с учетом шаблонов

Новый двуходовой фреймворк разделяет форматирование шаблона от обработки документа, используя отдельный оффлайн-канал для извлечения ограничений шаблона в повторно используемый манифест и онлайн-канал с гибридной схемой. Он ограничивает использование ИИ-моделей только для задач логического анализа, таких как обработка метаданных и библиографических данных, при этом применяет системы на основе правил для детерминированных операций, что повышает структурную точность, соответствие формату и успешность компиляции по сравнению с базовыми методами.