Reasoning models — korshunov.ai

Reasoning models Страница 25 / 35

ProductConsistency: Улучшение идентичности продукта в редактировании изображений

Датасет ProductConsistency вводит 87k образцов SFT и 869 образцов RL для улучшения сохранения идентичности продукта при редактировании изображений. В нём включён бенчмарк для стандартизированной оценки и используется циклическая согласованность вознаграждения для обеспечения семантической идентичности продукта через сходство описаний. Тонкая настройка Qwen-Image-Edit-2511 и Flux.1-Kontext-dev показывает снижение ошибки в 5 раз и улучшение отображения текста и визуальной качества.

arxiv arXiv cs.AI · 8 д назад

Ведение как координационный контроль в многоагентных командах на основе LLM

Исследование показало, что стили ведения в многоагентных командах на основе LLM улучшают производительность только тогда, когда начальное согласие нестабильно, восстанавливаемо и не корректируется самопроизвольными взаимодействиями. Координационный контроль на уровне процесса приносит ценность только при определённых условиях, предсказанных теорией команд, и не существует одного стиля ведения, который бы превосходил другие по точности при выполнении различных задач и моделей.

arxiv arXiv cs.AI · 8 д назад

Эквивариантные графовые нейронные сети улучшают предсказание оптических спектров

Эквивариантные графовые нейронные сети превосходят существующие модели при предсказании оптических спектров для отбора материалов. Адаптированный GotenNet достигает превосходной производительности, особенно в диапазоне от 0 до 8 эВ и при предсказании статической реальной диэлектрической проницаемости, что критично для оптики тонких пленок.

arxiv arXiv cs.AI · 8 д назад

Кадровая рамка совместного эволюционного развития человека и ИИ раскрывает появление социальной интеллектуальности

Фреймворк динамик совместного эволюционного развития человека и ИИ (HACD-H) вводит единую модель для длительного взаимодействия человека и ИИ, интегрируя эмоциональную адаптацию, память и личность в саморегулирующуюся систему. Результаты показывают, что социальная интеллектуальность возникает в результате совместного эволюционного развития, при этом наблюдается значительная отрицательная корреляция между социальной интеллектуальностью и социальной когнитивной энергией (r = -0,391, p < 0,001), а также прогрессивное снижение энергии со временем.

arxiv arXiv cs.AI · 8 д назад

OrthoReg: ортогональная регуляризация для гибридных символических-нейронных динамических систем

OrthoReg вводит ортогональную регуляризацию для предотвращения того, что нейронные компоненты переподучивают символические структуры в гибридных динамических системах. Средством прямого штрафа за пересечение между символическими и нейронными частями, оно обеспечивает дополнительную декомпозицию, при которой символические модели отвечают за выражимую физику, а нейронные компоненты — за оставшиеся динамические процессы. На тестовых наборах с частичным несовпадением библиотек, OrthoReg улучшает восстановление символических структур и производительность вне распределения.

arxiv arXiv cs.AI · 8 д назад

AdsMind: физически обоснованная многопользовательская система для открытия адсорбции

AdsMind — это замкнутый цикл многопользовательской системы, использующей машинное обучение с силовыми полями и обратную связь для исправления ошибок в поиске конфигураций адсорбции на катализаторах. Система достигает успеха на 100% и 98,8% на тестах AA20 и OCD-GMAE62, снижает разброс энергии в 14 раз по сравнению с базовыми моделями и сохраняет правильные знаки энергии адсорбции при проверке с помощью DFT, превосходя открытые циклы агентов на основе LLM.

blog Simon Willison · 8 д назад

GLM-5.2 — ведущая модель открытых весов на Индексе искусственного аналитического интеллекта

GLM-5.2, текстовая модель из 753 миллиона параметров от Z.ai, теперь является ведущей моделью открытых весов на Индексе искусственного аналитического интеллекта, превосходя MiniMax-M3, DeepSeek V4 Pro и Kimi K2.6. У неё контекстное окно в 1 миллион токенов и занимает второе место на лидерборде Code Arena WebDev, несмотря на отсутствие возможностей обработки изображений.

media r/LocalLLaMA · 8 д назад

Лучшие модели для видеопамяти 12 ГБ

Пользователь с видеопамятью 12 ГБ на GPU спрашивает о рекомендациях моделей для общих бесед, ролевых игр и программирования. Он предпочитает нецензурные модели для бесед и ролевых игр, и имеет процессор Ryzen 5600 и 32 ГБ ОЗУ.

media r/LocalLLaMA · 8 д назад

Я пообучил модель для надежного броска кубика

Пользователь обучил языковую модель бросать кубик, обеспечивая, что каждое число появляется примерно один раз из шести бросков. В посте подчеркивается, что популярные LLM часто отвечают '4', когда спрашивают о броске кубика, что иллюстрирует более широкую проблему в обучении на основе вознаграждений: модели часто не эффективно исследуют пространство и вместо этого следуют известным паттернам.

media Latent Space · 8 д назад

Radical AI достигает ускорения в 10 раз в открытии материалов

Radical AI ускорил открытие материалов, создав и исследуя 1200 сплавов за шесть месяцев — почти в 10 раз быстрее, чем цель DARPA/GE MACH по созданию 500 сплавов за год. Их автономные лаборатории используют искусственных ученых для генерации и проверки гипотез в замкнутых системах, что привело к созданию 300 новых материалов, из которых 10 демонстрируют новые, передовые свойства, которые сейчас разрабатываются для коммерческого применения.

media r/LocalLLaMA · 8 д назад

LoopCoder-V2: Модель PLT с двумя циклами достигает наилучшего соотношения выгоды и затрат

LoopCoder-V2 — это модель кода на 7B параметров, обученная на параллельном трансформере (PLT), и обученная на 18T токенов смешанных текстовых и кодовых данных. Вариант с двумя циклами достигает наилучшего соотношения выгоды и затрат, увеличивая SWE-bench Verified с 43.0 до 64.4, в то время как три или более циклов приводят к регрессии из-за роста позиционного несоответствия и нестабильных обновлений.

media r/LocalLLaMA · 8 д назад

GLM-5.2 — победа для локальной ИИ

GLM-5.2, содержащий 753 миллиарда параметров и окно контекста в 1 миллион токенов, теперь доступен на локальной аппаратуры через квантование. Его лицензия MIT и обширные обучающие данные позволяют сообществу проводить настройку более мелких моделей, что обещает значительные улучшения для локальных решений ИИ.

media r/LocalLLaMA · 8 д назад

SIQ-1 Qwen3.6 достигает сильных результатов в автознаниях и тестировании

Модель SIQ-1, обученная с использованием PPO с верифицируемой наградой, превосходит GLM-5.2 и Qwen-350B по задачам параметрического гольфа, с выводами, схожими с Opus4.8. Она также побеждает NEX и GPT-5.5 на тесте bullshit-bench. Модель и её версия GGUF доступны на Hugging Face, а также представлен демонстрационный агент, совместимый с ZeroGPU.

media r/LocalLLaMA · 8 д назад

Решена ли задача поиска иголки в стоге сена?

Пользователь спрашивает, актуальна ли «задача поиска иголки в стоге сена» — метрика, используемая для оценки производительности моделей — или она была забыта. В посте отражается её историческое применение в релизах моделей и задаётся вопрос о том, не стала ли она устаревшей или забытой.

media r/LocalLLaMA · 8 д назад

GLM-5.2: Создан для задач с длительным горизонтом

GLM-5.2 — это языковая модель, разработанная специально для задач с длительным горизонтом. Она направлена на более эффективное выполнение сложных, многошаговых рассуждений и долгосрочного планирования за счёт улучшения способности сохранять контекст на протяжении длительных последовательностей.

arxiv arXiv cs.LG · 8 д назад

LegalHalluLens: аудит халлюцинаций в правовых ИИ

LegalHalluLens представляет рамку для аудита халлюцинаций ИИ в правовых контекстах, анализируя профили халлюцинаций при вводе по четырём категориям утверждений. Оно выявляет разрыв в 38-40 баллов между утверждениями о обязательствах/числовых и временных утверждениях, и показывает, что два системы с одинаковыми показателями 52% халлюцинаций могут иметь противоположные направления риска. Рамка использует индекс направления риска и калиброванные дебатные потоки для снижения выявленных халлюцинаций на 45%, предоставляя практические диагностики для надежного внедрения правового ИИ.

arxiv arXiv cs.LG · 8 д назад

Рекурсивные скрытые модели диффузии вводят новый осевой масштаб

Рекурсивные скрытые модели диффузии (R-MDMs) вводят рекурсивную глубину как третий осевой масштаб, применяя внутри каждого шага диффузии дезинтегрирующий трансформер. Эта рекурсия позволяет итеративно улучшать выход без увеличения количества параметров, достигая производительности, сравнимой с не-рекурсивными моделями, при наличии до L раз больше параметров, где L — количество итераций. R-MDMs также снижают вычислительные затраты на инференс, частично заменяя шаги дезинтеграции на рекурсивное уточнение.

arxiv arXiv cs.LG · 8 д назад

Катастрофическое забвение — это низкий ранг: теория функционального пространства

Теория функционального пространства показывает, что катастрофическое забвение при непрерывной адаптации концентрируется в небольшом числе старых задач NTK-эйдженмодов. В случае линейного заголовка PEFT-CL с замороженной основой, вектор забвения точно предсказуем до численной точности, с правилом Кронекера для уязвимого ранга.

arxiv arXiv cs.LG · 8 д назад

Оценка базовых открытых моделей языковой модели для многозначной классификации ATT&CK

Создан и отображенный набор данных с 2076 предложениями, аннотированных людьми из 83 сложных отчетов по киберугрозам, с уровнем согласия между аннотаторами \k{appa} = 0.68. Оценены семь открытых моделей языковых моделей от 8B до 236B параметров, достигнув максимального значения F1 по микро-среднему среднему 0.22. Размер параметров показал статистически значимую положительную корреляцию с F1, в то время как стратегия запроса и температура не привели к значительным улучшениям, что указывает на недостаточность текущих открытых моделей языковых моделей для классификации ATT&CK на производственном уровне.

arxiv arXiv cs.LG · 8 д назад

Оценка неопределенности для моделей на основе потоков визуально-языковых-действий

Мы предлагаем метод, использующий несогласие потоков для оценки эпистемической неопределенности в моделях на основе потоков визуально-языковых-действий. Эта оценка неопределенности позволяет обнаруживать сбои во время развертывания и активного тонкого настройки через рамку SAVE, что снижает количество демонстраций экспертов на 22% по сравнению с базовыми методами, при этом обеспечивая более калиброванные предсказания на бенчмарке LIBERO.