Все статьи
arxiv arXiv cs.LG · 6 ч назад

Мысли о планировании: обучение порядку рассуждений в диффузионных языковых моделях

Исследователи предлагают метод Self-Aware Scheduling (SAS), который обучает оптимальный порядок раскрытия токенов для маскированных диффузионных языковых моделей с целью улучшения качества генерации. Выводя достижимую верхнюю границу несоответствия последовательного декодирования, подход формулирует выбор порядка как задачу оптимизации политики с использованием Group Relative Policy Optimization.

media r/LocalLLaMA · 6 ч назад

Высококачественная квантование GLM-5.2 на 4x DGX Spark: руководство, результаты и сравнения

Автор демонстрирует запуск модели GLM-5.2 NVFP4 на четырех узлах NVIDIA GB10 DGX Spark с контекстным окном 128K, достигая пригодной для использования производительности обслуживания благодаря агрессивной оптимизации системы.

media r/LocalLLaMA · 6 ч назад

Пример руководства по тонкой настройке MLX

Пользователь демонстрирует тонкую настройку 7B-модели для инструкций на Apple Silicon с использованием MLX для изменения стиля на высокофэнтезийную литературу. Эксперимент показывает, что небольшой, тщательно подобранный набор данных может значительно изменить регистр и лексику модели при минимальных вычислительных ресурсах.

arxiv arXiv cs.LG · 7 ч назад

SVD-Surgeon: Оптимальная хирургия сингулярных значений для сжатия больших языковых моделей

Исследователи представили SVD-Surgeon, метод без дообучения, который применяет фреймворк Optimal Brain Surgeon к сингулярному разложению для сжатия больших языковых моделей. Этот подход вычисляет обновления в замкнутой форме для сохраняемых сингулярных значений, чтобы компенсировать ошибки усечения, и определяет, какие значения следует отбросить, на основе их значимости.

arxiv arXiv cs.LG · 7 ч назад

Контрастное обучение с учётом пациента сохраняет внутрипациентскую структуру в представлениях RR-интервалов

Статья рассматривает проблему контрастного обучения представлений на физиологических сигналах, где индивидуальные базовые уровни субъектов мешают целям на уровне классов, что приводит к потере моделями индивидуальных вариаций, необходимых для обобщения. Авторы предлагают контрастную функцию потерь с учётом пациента для обнаружения пароксизмальной фибрилляции предсердий, которая формирует положительные пары только из сегментов одного и того же пациента, чтобы сохранить базовые уровни синусового ритма при одновременном разделении классов.

arxiv arXiv cs.LG · 7 ч назад

Спектральная теория нормализованного скорректированного распространения GNN

В данной работе разрабатывается спектральная теория для нормализованного скорректированного распространения графовых нейронных сетей (GNN), с акцентом на симметричную нормализованную матрицу смежности, из которой удален ее компонент, стационарный по степени, чтобы изолировать направление, связанное с чрезмерным сглаживанием.

arxiv arXiv cs.LG · 7 ч назад

MORL-A2C: Ранжерер для многокритериального обучения с подкреплением для здоровья

Исследователи представляют MORL-A2C, расширение последовательного принятия решений для системы MOPI-HFRS, которое использует алгоритм Advantage Actor-Critic для оптимизации компромисса между предпочтениями пользователя и нутритивным здоровьем в рекомендациях по питанию.

media r/LocalLLaMA · 7 ч назад

Я создал агентный каркас для малых моделей. Qwen 3.5 4b управляет серверами.

Автор разработал специализированный агентный каркас, предназначенный для устранения специфических сбоев малых локальных моделей, таких как неудачные вызовы инструментов и плохой трекинг состояния. Этот пользовательский фреймворк позволяет меньшим моделям, таким как Qwen 3.5 4b, эффективно управлять удаленными серверами.

media r/LocalLLaMA · 7 ч назад

Локальный режим превращает изображение в милого управляемого персонажа, за которого можно играть

Автор представляет версию модели на 800M параметров, которая преобразует изображения в управляемых персонажей, предназначенную для комфортной работы на потребительских GPU. Эта итерация увеличивает контекст до 12 латентных кадров и повышает стабильность при сохранении высокой производительности, достигая более 60 кадров в секунду на RTX 5090.

media Hugging Face Forums · 7 ч назад

HoLo-ToLk: модели речи без токенизатора на основе нулевого параметра HSL

Автор представляет HoLo-ToLk, исследовательский проект по созданию моделей преобразования речи в текст (STT) и текста в речь (TTS) с использованием нулевого параметра HSL byte substrate без токенизаторов или обучаемых входных эмбеддингов. Работа демонстрирует, что сырые байты HSL могут служить жизнеспособным сигналом для обработки аудио при сочетании с определенными архитектурными модификациями.

github llama.cpp · 7 ч назад

Выпуск llama.cpp b9837 добавляет флаг --reasoning-preserve и новые бинарные файлы

Проект llama.cpp выпустил версию b9837, которая вводит новый флаг `--reasoning-preserve` для шаблона чата Jinja, чтобы сохранять токены рассуждения. Это обновление также включает исправленные сообщения справки и предоставляет предварительно собранные бинарные файлы для macOS, Linux, Windows, Android и openEuler для различных аппаратных бэкендов.

lab OpenAI News · 7 ч назад

HP Inc. запускает стратегическое партнерство Frontier с OpenAI

HP Inc. расширяет свое стратегическое партнерство с OpenAI после успешных пилотных проектов, внедряя ИИ в клиентский опыт, продуктивность сотрудников и разработку программного обеспечения. Компания использует платформу OpenAI Frontier в качестве единой операционной модели для управления контекстом, разрешениями и оценкой по мере перехода от экспериментальных кейсов к производству на уровне всей компании.

arxiv arXiv cs.LG · 8 ч назад

Решение для гиперпараметра, пропуск поиска: законы масштабирования Колмогорова-Оптимальные для сплайновой регрессии

Статья представляет KORE, метод, который определяет оптимальное разрешение сплайновой регрессии в замкнутой форме, а не через исчерпывающий поиск гиперпараметров. Используя классическую теорию аппроксимации и тождество PRESS, он аналитически балансирует масштабы смещения и шума для достижения точности, сопоставимой с перебором по сетке, но при значительно меньших вычислительных затратах.

arxiv arXiv cs.LG · 8 ч назад

Полиномиальные сети Колмогорова-Арнольда обучаются динамике игры «Жизнь»

В данном исследовании показано, что нейронные сети могут надёжно обучаться динамике игры «Жизнь» Конвея с использованием минимальных архитектур за счёт применения специфических индуктивных смещений, а не полагаясь на масштабные процессы поиска. Авторы демонстрируют, что варианты сетей с альтернативными функциями активации значительно превосходят стандартные линейные блоки с пороговым значением (ReLU), особенно благодаря использованию полиномиальных функций активации второй степени.

arxiv arXiv cs.LG · 8 ч назад

Количественная оценка согласованности между мерами влияния данных и сходства данных в LLM

В данном исследовании количественно оценивается согласованность между мерами сходства данных и влияния данных, используемыми для отслеживания выходов LLM обратно к обучающим данным, выявляя значительное пересечение с асимметрией, при которой влияние данных более последовательно ранжирует наиболее похожие документы. Эксперименты на моделях, включая OLMo2-1B, Qwen3-1.7B, LlaMa3.2-1B, Gemma3-1B и GPT2, демонстрируют, что эта асимметрия позволяет достичь выгодного компромисса между стоимостью и точностью за счет использования влияния данных для уточнения результатов более дешевого сходства данных.

arxiv arXiv cs.LG · 8 ч назад

Масштабирование линейной связности режимов и слияния для предобученных трансформеров с миллиардом параметров

Исследователи предлагают масштабируемую рамку для объединения независимо обученных трансформеров с миллиардом параметров, используя линейную связность режимов, что позволяет преодолеть ограничения масштабируемости существующих методов. Подход использует преобразования весов, сохраняющие функцию, и двойной процесс обучения, в котором обе модели совместно оптимизируются к общему пути линейной интерполяции.

arxiv arXiv cs.LG · 8 ч назад

Открытие причинности в эпоху агентов

В статье утверждается против использования больших языковых моделей для вывода причинных структур, предупреждая, что такие подходы рискуют спутать текстовые ассоциации с настоящими причинными доказательствами. Вместо этого предлагается, чтобы агенты лишь помогали рабочему процессу, проверяя данные и объясняя предположения, оставляя причинные утверждения опирающимися на формальные алгоритмы и диагностику.

media r/LocalLLaMA · 8 ч назад

Пользователь запускает Qwen3.6-27B на бюджетном оборудовании для создания прототипов в строительной сфере

Пользователь Reddit демонстрирует запуск модели Qwen3.6-27B, квантованной до Q3 с KV при Q8, на GPU AMD Mi50 32 ГБ, достигая скорости около 180+ токенов в секунду для обработки запроса и 9 токенов в секунду для генерации текста.