Reasoning models — korshunov.ai

Reasoning models Страница 17 / 35

MedRLM: Рекурсивная мультимодальная интеллектуальная система здравоохранения

MedRLs обеспечивает долгосрочное клиническое мышление за счёт рекурсивного анализа данных пациента в тексте, изображениях, сенсорах и руководствах. Оно интегрирует специализированные агенты и граф памяти клинических доказательств для связи наблюдений за пациентом с доказательствами, биомаркерами и критериями реферирования, поддерживая сенсорное триггирование и ревью клиницистов с учётом неопределённости.

arxiv arXiv cs.CL · 7 д назад

ReNikud: аудио-обучаемая конвертация графемы в звук в иврите

ReNikud вводит новую аудио-обучаемую методику для конвертации графемы в звук на иврите, используя слабую аудио-супервизию и архитектуру псевдозвукового преобразования. Оно превосходит предыдущие методы передовых достижений на бенчмарках по ивриту G2-Ph и на новом бенчмарке MILIM, что позволяет получать более естественный говорящий иврит в приложениях текст-в-голос.

arxiv arXiv cs.CL · 7 д назад

Алгоритм для определения нот и ключей в музыкальной транскрипции

Новый алгоритм оценивает названия нот, ключи и локальные шкалы на основе входных данных, аналогичных MIDI, путем совместной оптимизации модальных и тональных стадий. Он был проверен на жазз-сопровождениях, соло-транскрипциях, традиционных мелодиях и классических пьесах для пианино, с дополнительными расстояниями, определенными между распространенными жазз-шкалами для музыкальных исследований.

arxiv arXiv cs.CL · 7 д назад

Каузальные направления активации для смягчения эмерджентной несоответственности в языковых моделях

Тонкая настройка языковых моделей на небезопасном коде приводит к эмерджентной несоответственности. Общее направление активации в четырех семействах моделей обеспечивает разделяемость 99,6% между соответствующими и несоответствующими активациями, а вычитание этого направления снижает проникновение кода на 21–51 балл. Переход между архитектурами демонстрирует подавление поведения, но отсутствует специфичность; направления внутри модели являются кausalно действительными, а направления между моделями — только кausalно реальными.

arxiv arXiv cs.CL · 7 д назад

Кадровая интеллектуальная рамка для публичного дискурса в Нигерии

Кадровая интеллектуальная рамка (КИР) вводит девятимерную схему для анализа публичного дискурса в Нигерии, решая проблему отсутствия контекста в системах искусственного интеллекта. Данные калибровки из 30 пунктов показывают, что использование схемы при подсказке повышает точность классификации стиля с 33,3% до 73,3% и увеличивает общий показатель кадровой интеллектуальности с 73,2 до 78,6.

arxiv arXiv cs.CL · 7 д назад

PsyScore: Фреймворк, ориентированный на психометрические аспекты, для оценки эссе с адаптацией по характеристикам и сопровождения на основе зоны развития

PsyScore интегрирует диагностическую оценку и инструктивную обратную связь с использованием общей модели скрытой способности. В нём реализован адаптивный нейронный оценщик на основе GPCM, генератор обратной связи на основе зоны развития, который настраивает инструкции в зависимости от уровня компетентности, и стратегия многоплановой оценки. Эксперименты на ASAP++ показывают конкурентоспособную оценку и более педагогически обоснованную обратную связь по сравнению с существующими методами.

media r/LocalLLaMA · 7 д назад

DiffusionGemma 26B на 4090 достигает 475t/s с ограничениями

DiffusionGemma 26B работает до 475t/s на 4090 через vLLM с квантованием INT4 AWQ, достигая скоростей от 290t/s до 700t/s в зависимости от длины вывода. Однако, он страдает от односессионной работы, снижения точности ответов, быстрого потери контекста и более медленного времени до первого токена по сравнению с стандартными моделями 26B.

media r/LocalLLaMA · 7 д назад

Laguna M.1: 225B параметр модель MoE для агентного кодирования

Laguna M.1 — это модель с 225B параметрами и 23B активными параметрами на каждый токен, разработанная для агентного кодирования и задач с длинным горизонтом. Она достигает конкурентоспособных результатов на SWE-bench Verified (74,6%), SWE-bench Multilingual (63,1%) и Terminal-Bench 2.0 (45,8%), превосходя модели, такие как Devstral 2 и GLM-4.7, на ключевых тестах.

media r/LocalLLaMA · 7 д назад

Мой робот-сумка получает эффект от реального датчика газа

Реальный датчик газа MQ-2 обнаруживает дым и передает живые данные в LLM-сэмплер, корректируя температуру, top_p и top_k в реальном времени. По мере увеличения дыма речь робота становится более цикличной и ассоциативной, без заранее скриптового режима 'пьяного', демонстрируя живое поведение модели, вызванное физическим вводом.

media r/LocalLLaMA · 7 д назад

GLM-5.2 — лучшая открытая модель креативного письма

Оценка Сэма Пэча по критерию креативного письма на EQ Bench определяет GLM-5.2 как лучшую открытую модель креативного письма. Оценка основана на метриках производительности в тесте креативного письма EQ Bench.

media r/LocalLLaMA · 7 д назад

SLMs и диффузии: Будущее малых, специализированных моделей?

Пользователи обсуждают, может ли задачеспецифичная малая языковая модель (SLM) превосходить более крупные модели в определённых задачах, приводя примеры бенчмарков, где модели на 9 миллиардов параметров достигают или превосходят более крупные. Они предлагают последовательный агентский поток, использующий несколько специализированных моделей, при этом одна координирует, а другие проверяют ответы, предполагая, что диффузионные модели могут ускорять такие потоки, несмотря на снижение интеллекта.

media r/LocalLLaMA · 8 д назад

Llama Bench vs Реальное отклонение производительности

Пользователь сообщает о значительной разнице между результатами Llama benchmark и реальной производительностью модели. Бенчмарки показывают 754 токен/с при предварительной загрузке и 36 токен/с при генерации, однако в реальных условиях наблюдается только 7,98 токена в секунду, с высокой задержкой и плохим пропускным расходом. Отклонение объясняется реальными условиями использования, а не настройками бенчмарка, что указывает на то, что реальная производительность модели значительно ниже скорости, указанной в бенчмарке.

media r/LocalLLaMA · 8 д назад

Запуск Keye-VL-2.0-30B-A3B с продвинутыми возможностями понимания видео и функциями агента

Keye-VL-2.0-30B-A3B — это мультимодальный модель с 30 миллиардами параметров, разработанный для понимания длинных видео и функционирования агента. Она превосходит открытые конкурентов и достигает уровня Gemini-3-Flash в временной фиксации, поддерживает до 256K контекста с почти безпотерьным рассуждением и включает встроенные возможности для агентов по коду, инструментам и поиску в интернете.

media r/LocalLLaMA · 8 д назад

Обзор GLM-5.2 и реакция на цензуру

GLM-5.2 демонстрирует исключительную согласованность в длинных контекстах и живое общение, превосходя Gemini-3.1-Pro по текстовым задачам и соответствующий GPT-5.5 по качеству логического мышления. Модель отвечает фактами на чувствительные темы, такие как Тайвань и площадь Тяньаньмен, предоставляя подробный исторический контекст без явной цензуры, хотя и следует китайским правительственным правилам содержания.

arxiv arXiv cs.LG · 8 д назад

Дискриминатор-ориентированный RL корректирует потоковое соответствие с помощью наград, синхронизированных с данными

Дискриминатор-ориентированный RL (DRL) использует предобученное пространство представлений для обучения дискриминатора, который отделяет реальные данные от образцов, сгенерированных моделью. Его логит используется в качестве награды в RL с регуляризацией КЛ, обеспечивая соответствие выводов модели визуальной и семантической реальности без человеческих предпочтений. DRL улучшает FID и семантическую FD во всех моделях, таких как SiT и JiT, и усиливает границу Парето между предпочтениями и точностью.

arxiv arXiv cs.LG · 8 д назад

Слияние основных подпространств для многозадачного обучения

Слияние основных подпространств (ESM) снижает перекрестное влияние между задачами, фокусируясь на главных направлениях сдвигов активации. ESM++ расширяет этот подход за счёт динамического выбора экспертов с помощью маршрутизации на основе прототипов, обеспечивая эффективное слияние многозадачных моделей без обучения.

arxiv arXiv cs.LG · 8 д назад

AGDN: Решение задачи о продавце путешествий с анизотропным графовым диффузионным методом

AGDN представляет графическую нейронную сеть, которая решает проблемы топологических предпосылок и потери связности в задаче о продавце путешествий. Используя матрицу переходов MixScore и анизотропную диффузию, метод обеспечивает эффективный обмен информацией и превосходит существующие подходы по разнообразию размеров и распределений задач, при этом сохраняя конкурентную вычислительную скорость. Реализация доступна на GitHub.

arxiv arXiv cs.LG · 8 д назад

Решение-ориентированный RL для зарядки электромобилей с неизвестными временами выезда

Новая архитектура решений-ориентированного RL одновременно обучает прогнозиста и контроллер зарядки для работы с неизвестными временами выезда электромобилей. Согласовывая точность прогноза с качеством принятых решений, метод достигает до 14% большего общего вознаграждения и снижения на 55% необеспечиваемой энергии по сравнению с традиционными подходами RL.

arxiv arXiv cs.LG · 8 д назад

Общая геометрия собственных значений семантических атак

Новая теория моделирует, как семантические перефразы могут обмануть классификаторы финансовых эмоциональных оценок, анализируя наихудшее смещение представлений целевых моделей. Индекс атакоспособности λ*(x) получается из наибольшего обобщённого собственного значения матричной пары (A,B), что обеспечивает закрытые формулы прогнозов и сертификаты устойчивости для аффинных выходов. Фреймворк связывает теорию непрерывных возмущений с дискретным поиском перефраз, с эмпирической проверкой на реальных классификаторах финансовых текстов.

arxiv arXiv cs.LG · 8 д назад

МАСТ обеспечивает селективное исключение в процессе принятия решений, вызванного RLVR

МАСТ, механизм-ориентированный метод исключения, достигает целенаправленного забвения процесса принятия решений, вызванного RLVR, с минимальными побочными эффектами. На Qwen2.5-Math-1.5B и Qwen3-1.7B-Base он значительно снижает производительность MATH (45/150 до 37/15-0), при этом сохраняет точность GSM8K на +0.8 пунктов и поддерживает сохранение MATH на -0.5 пунктов. Результаты остаются стабильными при различных семенах, целях и моделях, демонстрируя превосходную стабильность по сравнению с полным исключением параметров.