Minimax M3 против M2.7
Пользователь Reddit просит отзывы от тех, кто обновился с модели Minimax M2.7 до версии M3. В посте ищутся мнения сообщества о различиях и производительности между этими двумя версиями.
Пользователь Reddit просит отзывы от тех, кто обновился с модели Minimax M2.7 до версии M3. В посте ищутся мнения сообщества о различиях и производительности между этими двумя версиями.
Автор демонстрирует запуск модели GLM-5.2 NVFP4 на четырех узлах NVIDIA GB10 DGX Spark с контекстным окном 128K, достигая пригодной для использования производительности обслуживания благодаря агрессивной оптимизации системы.
Пользователь демонстрирует тонкую настройку 7B-модели для инструкций на Apple Silicon с использованием MLX для изменения стиля на высокофэнтезийную литературу. Эксперимент показывает, что небольшой, тщательно подобранный набор данных может значительно изменить регистр и лексику модели при минимальных вычислительных ресурсах.
Исследователи представили SVD-Surgeon, метод без дообучения, который применяет фреймворк Optimal Brain Surgeon к сингулярному разложению для сжатия больших языковых моделей. Этот подход вычисляет обновления в замкнутой форме для сохраняемых сингулярных значений, чтобы компенсировать ошибки усечения, и определяет, какие значения следует отбросить, на основе их значимости.
Статья рассматривает проблему контрастного обучения представлений на физиологических сигналах, где индивидуальные базовые уровни субъектов мешают целям на уровне классов, что приводит к потере моделями индивидуальных вариаций, необходимых для обобщения. Авторы предлагают контрастную функцию потерь с учётом пациента для обнаружения пароксизмальной фибрилляции предсердий, которая формирует положительные пары только из сегментов одного и того же пациента, чтобы сохранить базовые уровни синусового ритма при одновременном разделении классов.
В данной работе разрабатывается спектральная теория для нормализованного скорректированного распространения графовых нейронных сетей (GNN), с акцентом на симметричную нормализованную матрицу смежности, из которой удален ее компонент, стационарный по степени, чтобы изолировать направление, связанное с чрезмерным сглаживанием.
Исследователи представляют MORL-A2C, расширение последовательного принятия решений для системы MOPI-HFRS, которое использует алгоритм Advantage Actor-Critic для оптимизации компромисса между предпочтениями пользователя и нутритивным здоровьем в рекомендациях по питанию.
Автор разработал специализированный агентный каркас, предназначенный для устранения специфических сбоев малых локальных моделей, таких как неудачные вызовы инструментов и плохой трекинг состояния. Этот пользовательский фреймворк позволяет меньшим моделям, таким как Qwen 3.5 4b, эффективно управлять удаленными серверами.
Автор представляет версию модели на 800M параметров, которая преобразует изображения в управляемых персонажей, предназначенную для комфортной работы на потребительских GPU. Эта итерация увеличивает контекст до 12 латентных кадров и повышает стабильность при сохранении высокой производительности, достигая более 60 кадров в секунду на RTX 5090.
Автор представляет HoLo-ToLk, исследовательский проект по созданию моделей преобразования речи в текст (STT) и текста в речь (TTS) с использованием нулевого параметра HSL byte substrate без токенизаторов или обучаемых входных эмбеддингов. Работа демонстрирует, что сырые байты HSL могут служить жизнеспособным сигналом для обработки аудио при сочетании с определенными архитектурными модификациями.
Проект llama.cpp выпустил версию b9837, которая вводит новый флаг `--reasoning-preserve` для шаблона чата Jinja, чтобы сохранять токены рассуждения. Это обновление также включает исправленные сообщения справки и предоставляет предварительно собранные бинарные файлы для macOS, Linux, Windows, Android и openEuler для различных аппаратных бэкендов.
HP Inc. расширяет свое стратегическое партнерство с OpenAI после успешных пилотных проектов, внедряя ИИ в клиентский опыт, продуктивность сотрудников и разработку программного обеспечения. Компания использует платформу OpenAI Frontier в качестве единой операционной модели для управления контекстом, разрешениями и оценкой по мере перехода от экспериментальных кейсов к производству на уровне всей компании.
Статья представляет KORE, метод, который определяет оптимальное разрешение сплайновой регрессии в замкнутой форме, а не через исчерпывающий поиск гиперпараметров. Используя классическую теорию аппроксимации и тождество PRESS, он аналитически балансирует масштабы смещения и шума для достижения точности, сопоставимой с перебором по сетке, но при значительно меньших вычислительных затратах.
В данном исследовании показано, что нейронные сети могут надёжно обучаться динамике игры «Жизнь» Конвея с использованием минимальных архитектур за счёт применения специфических индуктивных смещений, а не полагаясь на масштабные процессы поиска. Авторы демонстрируют, что варианты сетей с альтернативными функциями активации значительно превосходят стандартные линейные блоки с пороговым значением (ReLU), особенно благодаря использованию полиномиальных функций активации второй степени.
В данном исследовании количественно оценивается согласованность между мерами сходства данных и влияния данных, используемыми для отслеживания выходов LLM обратно к обучающим данным, выявляя значительное пересечение с асимметрией, при которой влияние данных более последовательно ранжирует наиболее похожие документы. Эксперименты на моделях, включая OLMo2-1B, Qwen3-1.7B, LlaMa3.2-1B, Gemma3-1B и GPT2, демонстрируют, что эта асимметрия позволяет достичь выгодного компромисса между стоимостью и точностью за счет использования влияния данных для уточнения результатов более дешевого сходства данных.
Эта статья знакомит статистиков с нейронными сетями, разъясняя эту область через призму аппроксимации линейной регрессии.
Исследователи предлагают масштабируемую рамку для объединения независимо обученных трансформеров с миллиардом параметров, используя линейную связность режимов, что позволяет преодолеть ограничения масштабируемости существующих методов. Подход использует преобразования весов, сохраняющие функцию, и двойной процесс обучения, в котором обе модели совместно оптимизируются к общему пути линейной интерполяции.
В статье утверждается против использования больших языковых моделей для вывода причинных структур, предупреждая, что такие подходы рискуют спутать текстовые ассоциации с настоящими причинными доказательствами. Вместо этого предлагается, чтобы агенты лишь помогали рабочему процессу, проверяя данные и объясняя предположения, оставляя причинные утверждения опирающимися на формальные алгоритмы и диагностику.
Пользователь Reddit демонстрирует запуск модели Qwen3.6-27B, квантованной до Q3 с KV при Q8, на GPU AMD Mi50 32 ГБ, достигая скорости около 180+ токенов в секунду для обработки запроса и 9 токенов в секунду для генерации текста.
Разработчик создал игронезависимый бэкенд движка NPC, который использует небольшие локальные модели для достижения быстрого времени отклика и приемлемого качества в ролевых играх. Система использует NVIDIA Parakeet 0.6 для преобразования речи в текст, Gemma 4 26B A4B в качестве LLM и Qwen3-TTS для синтеза голоса.