Reasoning models — korshunov.ai

Reasoning models Страница 4 / 35

Оценка LLM для обнаружения уязвимостей в веб-приложениях

Исследование оценивает шесть LLM на обнаружение реальных уязвимостей в веб-приложениях в плагинах WordPress, выявляя, что показатели обнаружения варьируются в зависимости от модели и дизайна запроса. Claude Opus 4.6 достиг наивысшего показателя обнаружения — 63%, в то время как Qwen 3.5 достиг лишь 35%, и ни одна модель не стабильно идентифицировала все базовые уязвимости на всех итерациях.

arxiv arXiv cs.AI · 2 д назад

Оценка бенчмарка малых языковых моделей для арабской NLP

Бенчмарк из 240 арабских тестовых заданий в восьми областях и десяти навыках оценивает двенадцать малых языковых моделей в нулевом режиме. Gemma 3 (12B) достигла наивысшей общей оценки (4,548/5), за ним следуют Aya и C4AI Command Arabic, производительность которых связана больше с арабской настройкой и выполнением инструкций, чем с размером модели. Общие недостатки включают утечку промпта, халлюцинации и слабое выполнение задач.

arxiv arXiv cs.AI · 2 д назад

Модель объяснимой ИИ для депрессии, связанной с карьерой, у студентов университетов

Новая рамка объяснимой ИИ использует структурированные данные поведения и признаки эмоций лица для обнаружения ранних признаков депрессии и тревожности, связанных с карьерой, у студентов университетов. Модель, оцененная на данных студентов из Пакистана, достигает значения F1-меры 89,12% и выявляет ключевые маркеры, такие как избегание прямого взгляда и социальная изоляция, что соответствует психологическим теориям.

arxiv arXiv cs.AI · 2 д назад

Разделение декларативных и процедурных знаний в моделях визуально-языковых-действий

w$^{2}$VLA вводит модульную модель визуально-языковых-действий, которая разделяет декларативные и процедурные знания. Структурирование потока информации позволяет обеспечить надежное копирование поведения и нулевое переносимость навыков на новые, несхожие объекты.

arxiv arXiv cs.AI · 2 д назад

Память-эффективная фильтрация графа для масштабируемого краткосрочного фильтрации

Mem-GF вводит метод память-эффективной фильтрации графа, который аппроксимирует полиномиальные граф-фильтры с помощью подпространств Крылова, избегая хранения полного графа схожести элементов. Метод достигает снижения использования памяти до 5,74 раза и ускорения выполнения до 4,38 раз, при этом превосходя современные методы по точности и масштабируемости на датасетах с десятками миллионов взаимодействий.

arxiv arXiv cs.AI · 2 д назад

Обнаружение ошибок в процедуре без обучения с использованием моделей видео-языка

Единая безобученная система ZeProM использует предобученную модель видео-языка для одновременного выполнения обнаружения ошибок в процедуре и временного разделения действий. Она достигает улучшения на 4,4 пункта по EDA и на 2,0 пункта по F1@.5 на задачах EgoPER, что соответствует или превосходит результаты обучающих методов без специфического обучения для задачи.

media r/LocalLLaMA · 2 д назад

Бенчмарк LLM в медицинской синтаксисе: пропуски превосходят выдумки

Бенчмарк 8 LLM на 300 синтетических диалогов врачи-пациенты выявил 12 высококритичных выдумок и 520 клинически значимых пропусков. Пропуски были значительно чаще, чем выдумки: DeepSeek показал отличные качества в стилистике и стоимости, но упустил множество фактов о безопасности, в то время как Claude Opus имел наименьшее количество пропусков, но худшую стилистическую оценку.

media r/LocalLLaMA · 2 д назад

VibeThinker: модель с 3 миллиардами параметров побеждает Opus 4.5 в задачах логического мышления

Модель VibeThinker с 3 миллиардами параметров превосходит Opus 4.5 в задачах логического мышления с использованием новой методики обучения SFT+GRPO. Модель была представлена в статье, доступной на arXiv, с подробностями, размещёнными в посте на Reddit.

media r/LocalLLaMA · 2 д назад

Баиду выпустил модель одношагового долгосрочного парсинга

Баиду представил новую модель парсинга, называемую одношаговым долгосрочным парсингом. Модель позволяет эффективно понимать текст на долгосрочной основе с минимальными объемами обучающих данных, как это продемонстрировано в репозитории GitHub.

lab OpenAI News · 2 д назад

GPT-5 Pro помог решить загадку иммунологии, существовавшую три года

GPT-5 Pro предоставил ключевые сведения о поведении Т-клеток, решив загадку иммунологии, существовавшую три года. Открытие может продвинуть исследования в области онкологии и аутоиммунных заболеваний.

media r/LocalLLaMA · 2 д назад

Лучшие локальные модели для рассуждений в агентной ИИ

Создатель EverFern спрашивает, какие локальные модели лучше всего подходят для агентных рабочих процессов и использования в браузере или на компьютере. Он отмечает, что интеллект модели редко является ограничивающим фактором, и что надежность и системы восстановления важнее, чем выбор модели.

media r/LocalLLaMA · 2 д назад

Человеческая оценка показывает, что GLM-5.2 конкурирует с лучшими моделями

Человеческая оценка на лидерборде Design Arena показывает, что GLM-5.2 демонстрирует почти такое же качество, как Fable 5 в задачах разработки игр, занимая лишь одну ступень ниже. Модель, основанная на открытых весах и лицензии MIT, оценивается как равнозначная по возможностям лучшим доступным моделям Claude, что указывает на то, что стандартизированные бенчмарки могут уже не отражать реальную производительность.

media r/LocalLLaMA · 2 д назад

SFT или RL-первый для обучения агента Qwen 3.5 с использованием инструментов?

Пользователь спрашивает, рекомендуется ли все еще последовательное применение надзирательного мелкого настройки (SFT) за которым следует обучение с помощью реверсной связи (RL), для обучения агентов Qwen 3.5 4B или 9B для многократного использования инструментов, или же более эффективны подходы на основе только RL. В посте также ищется руководство по проектированию вознаграждения и обработке параллельного выполнения инструментов в рабочих процессах агентов.

arxiv arXiv cs.CL · 2 д назад

Групповая графовая оптимизация политики для долгосрочной агентной RL

Групповая графовая оптимизация политики (G2PO) вводит графовый подход для улучшения долгосрочной агентной реверсной обучения, преобразуя взаимодействия в траектории в графы состояний-переходов. Она позволяет осуществлять групповую агрегацию оценки состояния и вычисление преимуществ на основе рёбер, улучшая присвоение кредитов и снижая дисперсию, и достигает улучшения показателя успешности до 22,2% по сравнению с GRPO на бенчмарках WebShop, ALFWorld и AppWorld.

arxiv arXiv cs.CL · 2 д назад

Неограниченный OCR: парсинг, похожий на человеческий, с постоянным использованием памяти

Неограниченный OCR вводит внимание сдвига окна ссылки (R-SWA), чтобы имитировать человеческую рабочую память, позволяя транскрибировать длинные документы без роста использования памяти. Заменяя слои внимания декодера в DeepSeek OCR, R-SWA сохраняет постоянный кэш K и V и достигает полной обработки документа за один проход вперед при ограничении в 32K токенов. R-SWA также применим к задачам аудио-распознавания и перевода.

arxiv arXiv cs.CL · 2 д назад

Двухканальный фреймворк для преобразования LaTeX с учетом шаблонов

Новый двуходовой фреймворк разделяет форматирование шаблона от обработки документа, используя отдельный оффлайн-канал для извлечения ограничений шаблона в повторно используемый манифест и онлайн-канал с гибридной схемой. Он ограничивает использование ИИ-моделей только для задач логического анализа, таких как обработка метаданных и библиографических данных, при этом применяет системы на основе правил для детерминированных операций, что повышает структурную точность, соответствие формату и успешность компиляции по сравнению с базовыми методами.

arxiv arXiv cs.CL · 2 д назад

Саморазвитие агентов, использующих инструменты, через обучение предпочтений в точках разрыва

ToolGraph повышает эффективность агентов, использующих инструменты в многоходовых сессиях, интегрируя схему топологии, веса переходов и контроль, учитывающий историю. Обучение с DPO на 161 паре предпочтений в точках разрыва улучшает производительность: ToolGraph+DPO достигает роста награды на 16,8% по сравнению с базовой версией, особенно в задачах авиационного и розничного сектора, где появление положительных наград выступает ключевым диагностическим сигналом.

arxiv arXiv cs.CL · 2 д назад

PRIDE: Метод расширения знаний с использованием привилегированных данных для генерации диалогов с эмпатией

PRIDE представляет метод сжатия знаний, который передает эмпатические рассуждения из больших моделей в более маленькие, используя привилегированные данные, доступные только в период обучения. Метод достигает конкурентоспособных или превосходных результатов на задачах, связанных с эмпатией, за счёт использования структурированных промптов, мультиисточниковой внимания и двойного потерь синхронизации.

media Hugging Face Forums · 2 д назад

Самые интересные теоретические темы ИИ с реальной базой ИИ-систем

Разговор охватывает теоретические темы ИИ, имеющие математические основания и возможность реализации в современных ИИ-системах, таких как большие языковые модели. Темы включают цепочки рассуждений, графы знаний и вероятностное рассуждение, все из которых основаны на формальной математике и демонстрируют потенциал для реальных применений в ИИ.

arxiv arXiv cs.CL · 2 д назад

Язык формирует историческую кредитность в больших языковых моделях

Исследование 11 больших языковых моделей по 21 спорному изобретению показывает, что язык запроса систематически влияет на того, кого признают изобретателем. Потенциальные заявители с более низким статусом чаще появляются при формулировке вопросов на их родном языке, в то время как доминирующие англоязычные фигуры остаются стабильными. Результаты указывают на то, что язык действует как переключатель, активирующий различные национальные версии истории, что свидетельствует о том, что большие языковые модели функционируют как системы культурной памяти.