Reasoning models
blog Simon Willison · 8 д назад

GLM-5.2 — ведущая модель открытых весов на Индексе искусственного аналитического интеллекта

GLM-5.2, текстовая модель из 753 миллиона параметров от Z.ai, теперь является ведущей моделью открытых весов на Индексе искусственного аналитического интеллекта, превосходя MiniMax-M3, DeepSeek V4 Pro и Kimi K2.6. У неё контекстное окно в 1 миллион токенов и занимает второе место на лидерборде Code Arena WebDev, несмотря на отсутствие возможностей обработки изображений.

media r/LocalLLaMA · 8 д назад

Лучшие модели для видеопамяти 12 ГБ

Пользователь с видеопамятью 12 ГБ на GPU спрашивает о рекомендациях моделей для общих бесед, ролевых игр и программирования. Он предпочитает нецензурные модели для бесед и ролевых игр, и имеет процессор Ryzen 5600 и 32 ГБ ОЗУ.

media r/LocalLLaMA · 8 д назад

Я пообучил модель для надежного броска кубика

Пользователь обучил языковую модель бросать кубик, обеспечивая, что каждое число появляется примерно один раз из шести бросков. В посте подчеркивается, что популярные LLM часто отвечают '4', когда спрашивают о броске кубика, что иллюстрирует более широкую проблему в обучении на основе вознаграждений: модели часто не эффективно исследуют пространство и вместо этого следуют известным паттернам.

media Latent Space · 8 д назад

Radical AI достигает ускорения в 10 раз в открытии материалов

Radical AI ускорил открытие материалов, создав и исследуя 1200 сплавов за шесть месяцев — почти в 10 раз быстрее, чем цель DARPA/GE MACH по созданию 500 сплавов за год. Их автономные лаборатории используют искусственных ученых для генерации и проверки гипотез в замкнутых системах, что привело к созданию 300 новых материалов, из которых 10 демонстрируют новые, передовые свойства, которые сейчас разрабатываются для коммерческого применения.

media r/LocalLLaMA · 8 д назад

LoopCoder-V2: Модель PLT с двумя циклами достигает наилучшего соотношения выгоды и затрат

LoopCoder-V2 — это модель кода на 7B параметров, обученная на параллельном трансформере (PLT), и обученная на 18T токенов смешанных текстовых и кодовых данных. Вариант с двумя циклами достигает наилучшего соотношения выгоды и затрат, увеличивая SWE-bench Verified с 43.0 до 64.4, в то время как три или более циклов приводят к регрессии из-за роста позиционного несоответствия и нестабильных обновлений.

media r/LocalLLaMA · 8 д назад

GLM-5.2 — победа для локальной ИИ

GLM-5.2, содержащий 753 миллиарда параметров и окно контекста в 1 миллион токенов, теперь доступен на локальной аппаратуры через квантование. Его лицензия MIT и обширные обучающие данные позволяют сообществу проводить настройку более мелких моделей, что обещает значительные улучшения для локальных решений ИИ.

media r/LocalLLaMA · 8 д назад

SIQ-1 Qwen3.6 достигает сильных результатов в автознаниях и тестировании

Модель SIQ-1, обученная с использованием PPO с верифицируемой наградой, превосходит GLM-5.2 и Qwen-350B по задачам параметрического гольфа, с выводами, схожими с Opus4.8. Она также побеждает NEX и GPT-5.5 на тесте bullshit-bench. Модель и её версия GGUF доступны на Hugging Face, а также представлен демонстрационный агент, совместимый с ZeroGPU.

media r/LocalLLaMA · 8 д назад

Решена ли задача поиска иголки в стоге сена?

Пользователь спрашивает, актуальна ли «задача поиска иголки в стоге сена» — метрика, используемая для оценки производительности моделей — или она была забыта. В посте отражается её историческое применение в релизах моделей и задаётся вопрос о том, не стала ли она устаревшей или забытой.

media r/LocalLLaMA · 8 д назад

GLM-5.2: Создан для задач с длительным горизонтом

GLM-5.2 — это языковая модель, разработанная специально для задач с длительным горизонтом. Она направлена на более эффективное выполнение сложных, многошаговых рассуждений и долгосрочного планирования за счёт улучшения способности сохранять контекст на протяжении длительных последовательностей.

arxiv arXiv cs.LG · 8 д назад

LegalHalluLens: аудит халлюцинаций в правовых ИИ

LegalHalluLens представляет рамку для аудита халлюцинаций ИИ в правовых контекстах, анализируя профили халлюцинаций при вводе по четырём категориям утверждений. Оно выявляет разрыв в 38-40 баллов между утверждениями о обязательствах/числовых и временных утверждениях, и показывает, что два системы с одинаковыми показателями 52% халлюцинаций могут иметь противоположные направления риска. Рамка использует индекс направления риска и калиброванные дебатные потоки для снижения выявленных халлюцинаций на 45%, предоставляя практические диагностики для надежного внедрения правового ИИ.

arxiv arXiv cs.LG · 8 д назад

Рекурсивные скрытые модели диффузии вводят новый осевой масштаб

Рекурсивные скрытые модели диффузии (R-MDMs) вводят рекурсивную глубину как третий осевой масштаб, применяя внутри каждого шага диффузии дезинтегрирующий трансформер. Эта рекурсия позволяет итеративно улучшать выход без увеличения количества параметров, достигая производительности, сравнимой с не-рекурсивными моделями, при наличии до L раз больше параметров, где L — количество итераций. R-MDMs также снижают вычислительные затраты на инференс, частично заменяя шаги дезинтеграции на рекурсивное уточнение.

arxiv arXiv cs.LG · 8 д назад

Катастрофическое забвение — это низкий ранг: теория функционального пространства

Теория функционального пространства показывает, что катастрофическое забвение при непрерывной адаптации концентрируется в небольшом числе старых задач NTK-эйдженмодов. В случае линейного заголовка PEFT-CL с замороженной основой, вектор забвения точно предсказуем до численной точности, с правилом Кронекера для уязвимого ранга.

arxiv arXiv cs.LG · 8 д назад

Оценка базовых открытых моделей языковой модели для многозначной классификации ATT&CK

Создан и отображенный набор данных с 2076 предложениями, аннотированных людьми из 83 сложных отчетов по киберугрозам, с уровнем согласия между аннотаторами \k{appa} = 0.68. Оценены семь открытых моделей языковых моделей от 8B до 236B параметров, достигнув максимального значения F1 по микро-среднему среднему 0.22. Размер параметров показал статистически значимую положительную корреляцию с F1, в то время как стратегия запроса и температура не привели к значительным улучшениям, что указывает на недостаточность текущих открытых моделей языковых моделей для классификации ATT&CK на производственном уровне.

arxiv arXiv cs.LG · 8 д назад

Оценка неопределенности для моделей на основе потоков визуально-языковых-действий

Мы предлагаем метод, использующий несогласие потоков для оценки эпистемической неопределенности в моделях на основе потоков визуально-языковых-действий. Эта оценка неопределенности позволяет обнаруживать сбои во время развертывания и активного тонкого настройки через рамку SAVE, что снижает количество демонстраций экспертов на 22% по сравнению с базовыми методами, при этом обеспечивая более калиброванные предсказания на бенчмарке LIBERO.

arxiv arXiv cs.LG · 8 д назад

ConTex: Глобальное генерирование контрапротивных сценариев для прогнозирования временных рядов

ConTex переформулирует генерацию контрапротивных сценариев для прогнозирования временных рядов как задачу глобально согласованного вмешательства. Оно достигает уровня валидности, соответствующего самым современным достижениям, с редкими, интерпретируемыми вмешательствами, снижает вычислительные затраты в 12-36 раз и позволяет проводить реальное включение за примерно 0,007 секунд.

arxiv arXiv cs.LG · 8 д назад

ScaFE: Использование LLM для извлечения клинически значимых признаков шрамов

ScaFE переосмысляет большие языковые модели как инженеров признаков для классификации шрамов, генерируя исполняемый код на языке Python из клинических критериев для извлечения интерпретируемых признаков. Фреймворк достигает превосходной производительности при ограниченном объеме данных, сохраняет приватность, обрабатывая изображения локально, и генерирует клинически обоснованные признаки, соответствующие установленным шкалам, таким как шкала Ванкувера.

arxiv arXiv cs.LG · 8 д назад

NoiseTilt: Noise-Tilted Reverse Kernels для выравнивания вознаграждения в диффузионных моделях

NoiseTilt вводит NTRK, диффузионный образовательный сэмплер, который вводит градиенты вознаграждения через компонент шума без изменения обратного ядра. Используя оператор белого шума, NTRK безопасно смещает шум в сторону высоких вознаграждений, сохраняя качество образцов при обеспечении сильного направления. В задаче эстетического генерирования NTRK достигает превосходной производительности по вознаграждению при 25 NFE, снижая вычислительные затраты на 20× по сравнению с существующими базовыми моделями.

arxiv arXiv cs.LG · 8 д назад

Алгоритм второго порядка поиска причинности на основе тензоров

TSCD использует ковариационные матрицы из наблюдаемых и интервенционных данных для определения причинных структур в линейных структурных уравнениях на графах ДАГ. Он требует только несвязанных шумов и обеспечивает идентифицируемые порядки и параметры причинности с логарифмическим количеством интервенций, масштабируясь до сотен переменных, при этом сохраняя устойчивость к шуму и конкурируя с существующими методами.

arxiv arXiv cs.LG · 8 д назад

Составная обобщение в рациональных процессах языковых моделей

Модель иерархического скрытого выбора показывает, что подкрепленная настройка и обучение с помощью вознаграждения работают совместно для обеспечения составного обобщения в языковых моделях. Подкрепленная настройка предоставляет сырье модулей, в то время как обучение с помощью вознаграждения идентифицирует и переключает атомные модули из сложных следов для решения новых задач. Обучение на сложных следах приводит к более сильному обобщению, чем обучение отдельных модулей, и был найден эффективный протокол, при котором подкрепленная настройка обеспечивает покрытие модулей, а обучение с помощью вознаграждения стимулирует изучение новых составов.

arxiv arXiv cs.LG · 8 д назад

OmniPlan: адаптивная система для своевременного и близкого оптимального планирования сети

OmniPlan представляет адаптивную систему, которая преобразует естественные языковые намерения пользователей в количественные предпочтения с использованием крупного языкового модели. Она динамически выбирает между экспертами на основе смешанной целочисленной оптимизации, онтологий и глубокого обучения с подкреплением, чтобы обеспечить как своевременность, так и близкую оптимальность при планировании сети. Оценки на распределённых рабочих нагрузках машинного обучения показывают сокращение задержки до 97,8% и снижение потребления ресурсов на 11,5%.