Reasoning models
arxiv arXiv cs.AI · 8 д назад

LLM-как-интерфейс, ML-как-прогнозатор для детской аппендицита

ClaMPAPP, гибридная система, использует LLM для извлечения структурированных клинических признаков из свободного текста и передает их в XGBoost-классификатор для диагностики. Она превосходила конечные LLM в обеих внутренних и внешних валидациях, демонстрируя лучшую диагностическую производительность и меньшее количество пропущенных случаев, что свидетельствует об улучшенной стабильности и безопасности при дифференцировании детской аппендицита.

arxiv arXiv cs.AI · 8 д назад

RL с фокусом на решения для зарядки электромобилей с неизвестными временами выезда

Фреймворк на основе RL с фокусом на решения одновременно обучает прогнозиста и контроллер зарядки для работы с неизвестными временами выезда электромобилей. Метод улучшает решения по зарядке на 14% в общей награде и снижает неснабжаемость энергии на 55% по сравнению с стандартным RL без прогнозирования.

arxiv arXiv cs.AI · 8 д назад

МАСТ обеспечивает селективное исчезновение в процессе принятия решений, вызванных RLVR

МАСТ, метод селективного исчезновения, обеспечивает целенаправленное забвение процесса принятия решений, вызванного RLVR, с минимальными побочными эффектами. На Qwen2.5-Math-1.5B и Qwen3-1.7B-Base он значительно снижает производительность MATH (45/150 до 37/150), сохраняя точность GSM8K на +0.8 пунктов и поддерживая сохранение MATH на -0.5 пунктов. Результаты остаются стабильными при различных семенах, целях и моделях, демонстрируя превосходную стабильность по сравнению с полным исчезновением параметров.

arxiv arXiv cs.AI · 8 д назад

STARE: Регулирование преимуществ на уровне токенов по принципу неожиданности для стабильности энтропии политики

STARE решает проблему коллапса энтропии политики в методе GRPO на основе обучения с усилением, определяя критические подмножества токенов по квантилям неожиданности и пересчитывая их преимущества. Оно обеспечивает стабильность энтропии политики на разных масштабах модели и задач, превосходя DAPO и другие базовые методы на 4%-8% на AIME24 и AIME25, с постоянным балансом между исследованием и эксплуатацией.

arxiv arXiv cs.AI · 8 д назад

TxBench-PP: оценка AI-агента в проклинической фармакологии

TxBench-PP — это проверяемая оценка для проклинической фармакологии маломолекулярных соединений, проверяющая способность AI-агентов делать точные выводы на основе реальных данных о пробах. При 16 конфигурациях моделей ни одна система не проходила все оценки, лучшая настройка (Claude Opus 4.8 / Pi) достигла 59,3% успеха при 300 попытках на конечных точках.

arxiv arXiv cs.AI · 8 д назад

OneCanvas: Понимание 3D-сцены через перепроекцию панорамы

OneCanvas обеспечивает понимание 3D-сцены в моделях Вид-Язык путем агрегирования признаков кусков на панорамной панели с использованием координат 3D-мира. Оно достигает лучших результатов на SQA3D и VSI-Bench, с сильной обобщаемостью на SPBench, используя значительно меньшее количество вычислений на обучении по сравнению с предыдущими методами.

arxiv arXiv cs.AI · 8 д назад

X+Slides: Метрика для генерации слайдов с учетом потребностей аудитории

X+Slides представляет метрику, оценивающую генерацию слайдов с учетом потребностей целевой аудитории. Она использует 8133 исходных пробных заданий по 113 темам и семи сценам для измерения охвата аудитории, охвата по областям, эффективности и корректности, выявляя, что текущие системы восстанавливают лишь частичную аудиторией необходимую информацию, при этом DeepPresenter достигает 0,714 охвата аудитории, SlideTailor — 0,594, а NotebookLM ablation — 0,853, что подчеркивает необходимость оценки на основе исходных данных.

arxiv arXiv cs.AI · 8 д назад

Противоречия в адаптации медицинских LLM: исследование по вопросам в области французского языка

Исследование сравнивает непрерывное предобучение (CPT), надзорную настройку (SFT) и их комбинацию для медицинских вопросов в области французского языка. CPT+SFT показывает лучшие результаты в тестах на выбор одного из вариантов, хотя прирост по сравнению с SFT является незначительным и часто несущественным, что делает SFT эффективным и экономически выгодным решением по умолчанию. В случае открытых вопросов CPT улучшает метрики, в то время как SFT снижает качество, при этом настройка по инструкциям и CPT+SFT предпочитаются оценками на основе LLM. Результаты по межязыковой передаче показывают эффективную трансферность с французского на английский стандарты.

arxiv arXiv cs.AI · 8 д назад

NeSyCat Torch: Реализация дифференцируемых тензоров для нейросимвольного обучения

NeSyCat Torch предоставляет дифференцируемую реализацию тензоров категориальных семантик для нейросимвольного обучения, объединяя классические, размытые, вероятностные и нейронные системы под единым определением индуктивной истины. Он превосходит LTN и DeepProbLog по скорости и точности на задаче сложения MNIST, достигая точности, соответствующей DeepStochLog, при работе в единой системе, расширяемой на непрерывные вероятности через инстанцирование монады.

arxiv arXiv cs.AI · 8 д назад

Разбор внимания трансформера с помощью исполняемых программ

Новый метод использует синтез программ для генерации программ на языке Python, которые воспроизводят паттерны внимания в моделях трансформеров. Более 999 таких программ достигают более чем 75% схожести по пересечению-объединению на TinyStories, и замена 25% голов внимания этими программами приводит к росту перплексности на 16%, при этом сохраняется производительность на задачах ответа на вопросы.

arxiv arXiv cs.AI · 8 д назад

Кадрово-условная самодистилляция

Кадрово-условная самодистилляция представляет собой рамку, которая использует структурированные критерии для предоставления детализированных, уровня токена обратной связи во время самодистилляции рациональных языковых моделей. При условии учитывания учителей на уровне критериев кадров, достигается более точное присвоение кредитов по сравнению с скалярными вознаграждениями, превосходя GRPO и OPSD на 1,0 и 0,9 пунктов в среднем по научным рациональным тестам.

arxiv arXiv cs.AI · 8 д назад

UBP2: Метод сбалансированного учета неопределенности для эффективного предпочтительного обучения с помощью релевантности

UBP2 представляет модельный метод, который активно исследует среды, объединяя рассуждение о неопределенностях в вознаграждении, динамике и функциях ценности. Он обеспечивает превосходную эффективность в использовании образцов в предпочтительном обучении с помощью релевантности, превосходя как модельные, так и неоптимистичные модельные базовые методы на платформе Meta-World.

media r/LocalLLaMA · 8 д назад

Оценка малых моделей LLM на сложных данных из HTML

Пользователь протестировал модели от 2B до 35B параметров на 29 сложных страницах извлечения данных из HTML и обнаружил, что более малые модели, такие как gemma4 e2b и e4b, превосходят более крупные. Qwen3.6 27B показал лучшую производительность, в то время как все MOE-модели получили низкие оценки, что подчёркивает важность задачоспецифической оценки.

arxiv arXiv cs.CL · 8 д назад

Dango: строго однолингвальный LLM для исследований SLA

Dango — это LLM с 1,8 миллиарда параметров, разработанный для изучения второго языкового приобретения на японском языке в английском. Он использует метод фильтрации для минимизации английской контаминации в монолингвальной предобученной фазе, сохраняя реалистичное воздействие первого языка. После тонкой настройки на уроки, сгенерированные LLM, Dango создает человечески естественные выводы на втором языке, превосходя нефильтрованные и стандартные многолингвальные модели.

arxiv arXiv cs.CL · 8 д назад

LLM-как-интерфейс, ML-как-прогнозатор для детской аппендицитной болезни

ClaMPAPP, гибридная система, использует LLM для извлечения структурированных клинических признаков из свободно-текстовых записей и передает их в классификатор XGBoost для диагностики. Она превосходила конечные LLM в обеих внутренних и внешних валидациях, демонстрируя лучшую стабильность и меньшее количество пропущенных случаев аппендицита, что свидетельствует о превосходной диагностической эффективности и безопасности в педиатрической дифференциации.

arxiv arXiv cs.CL · 8 д назад

RECOM: Связь между достоверностью и дискриминацией в метриках для задачи ответов на вопросы в Reddit

RECOM оценивает 15 000 вопросов раздела r/AskReddit с реальными ответами сообщества, опубликованными после обучения модели. В нем показано, что ни одна автоматическая метрика не может одновременно обеспечить сильную достоверность и высокую дискриминацию, при этом BERTScore ранжирует модели слабо даже при контроле длины. Эта связь возникает из-за проектирования представлений, а не из-за различий в моделях, и требует отчета как достоверности, так и дискриминации с базовыми уровнями на случайных данных.

arxiv arXiv cs.CL · 8 д назад

STARE: Surprisal-Guided Token-Level Advantage Reweighting for Policy Entropy Stability

STARE решает проблему коллапса политической энтропии в методах GRPO на основе робастного обучения, определяя подмножества токенов, критичных для энтропии, с помощью квантилей неудивления и пересчитывая их преимущества. Оно обеспечивает стабильность политической энтропии на различных масштабах модели и задач, превосходя DAPO и другие базовые методы на 4%-8% на AIME24 и AIME25, с постоянным балансом между исследованием и эксплуатацией.

arxiv arXiv cs.CL · 8 д назад

DreamReasoner-8B: обучение куррикулумом по размеру блоков для рассуждения на основе диффузии

DreamReasoner-8B — это открытый блок-модель диффузии, демонстрирующая сильное рассуждение в длинной цепи мыслей. Систематическое исследование показывает, что малые размеры обучающих блоков сохраняют эффективность рассуждения, в то время как большие размеры снижают производительность. Обучение куррикулумом по размеру блоков постепенно переходит от мелких к крупным блокам, обеспечивая устойчивое и обобщаемое рассуждение в различных условиях инференса, с результатами, конкурирующими с Qwen3-8B на математических и кодовых тестах.

arxiv arXiv cs.CL · 8 д назад

Большие языковые Гиббс для структурированного вероятностного вывода

Большие языковые Гиббс используют условные распределения ЛЛМ как операторы перехода для итеративного пересамплирования переменных. Метод обеспечивает вероятностно согласованный структурированный вывод, избегая зависимостей от порядка и достигая стационарного распределения, которое уравновешивает локальные условия. Он демонстрирует практическую эффективность в синтетических распределениях, согласованном мышлении и байесовском обучении структуры.

arxiv arXiv cs.CL · 8 д назад

Эмпирическое исследование адаптации медицинских LLM на французском языке для вопросов поиска

Исследование сравнивает непрерывное предобучение (CPT), надзорную настройку (SFT) и их комбинацию для французских медицинских вопросов поиска. CPT+SFT показывает лучшие результаты в тестах на выбор одного из нескольких вариантов, хотя прирост по сравнению с SFT является минимальным и часто несущественным, что делает SFT эффективным и экономически выгодным стандартом. Для открытых вопросов CPT улучшает метрики, в то время как SFT снижает качество генерации, при этом настройка по инструкциям и CPT+SFT предпочитаются оценками, основанными на LLM. Результаты, связанные с межязыковыми переводами, показывают эффективную трансферную способность с французского на английский.