Все статьи
media r/LocalLLaMA · 9 ч назад

Я создал агентный каркас для малых моделей. Qwen 3.5 4b управляет серверами.

Автор разработал специализированный агентный каркас, предназначенный для устранения специфических сбоев малых локальных моделей, таких как неудачные вызовы инструментов и плохой трекинг состояния. Этот пользовательский фреймворк позволяет меньшим моделям, таким как Qwen 3.5 4b, эффективно управлять удаленными серверами.

media r/LocalLLaMA · 9 ч назад

Локальный режим превращает изображение в милого управляемого персонажа, за которого можно играть

Автор представляет версию модели на 800M параметров, которая преобразует изображения в управляемых персонажей, предназначенную для комфортной работы на потребительских GPU. Эта итерация увеличивает контекст до 12 латентных кадров и повышает стабильность при сохранении высокой производительности, достигая более 60 кадров в секунду на RTX 5090.

media Hugging Face Forums · 9 ч назад

HoLo-ToLk: модели речи без токенизатора на основе нулевого параметра HSL

Автор представляет HoLo-ToLk, исследовательский проект по созданию моделей преобразования речи в текст (STT) и текста в речь (TTS) с использованием нулевого параметра HSL byte substrate без токенизаторов или обучаемых входных эмбеддингов. Работа демонстрирует, что сырые байты HSL могут служить жизнеспособным сигналом для обработки аудио при сочетании с определенными архитектурными модификациями.

github llama.cpp · 9 ч назад

Выпуск llama.cpp b9837 добавляет флаг --reasoning-preserve и новые бинарные файлы

Проект llama.cpp выпустил версию b9837, которая вводит новый флаг `--reasoning-preserve` для шаблона чата Jinja, чтобы сохранять токены рассуждения. Это обновление также включает исправленные сообщения справки и предоставляет предварительно собранные бинарные файлы для macOS, Linux, Windows, Android и openEuler для различных аппаратных бэкендов.

lab OpenAI News · 9 ч назад

HP Inc. запускает стратегическое партнерство Frontier с OpenAI

HP Inc. расширяет свое стратегическое партнерство с OpenAI после успешных пилотных проектов, внедряя ИИ в клиентский опыт, продуктивность сотрудников и разработку программного обеспечения. Компания использует платформу OpenAI Frontier в качестве единой операционной модели для управления контекстом, разрешениями и оценкой по мере перехода от экспериментальных кейсов к производству на уровне всей компании.

arxiv arXiv cs.LG · 10 ч назад

Решение для гиперпараметра, пропуск поиска: законы масштабирования Колмогорова-Оптимальные для сплайновой регрессии

Статья представляет KORE, метод, который определяет оптимальное разрешение сплайновой регрессии в замкнутой форме, а не через исчерпывающий поиск гиперпараметров. Используя классическую теорию аппроксимации и тождество PRESS, он аналитически балансирует масштабы смещения и шума для достижения точности, сопоставимой с перебором по сетке, но при значительно меньших вычислительных затратах.

arxiv arXiv cs.LG · 10 ч назад

Полиномиальные сети Колмогорова-Арнольда обучаются динамике игры «Жизнь»

В данном исследовании показано, что нейронные сети могут надёжно обучаться динамике игры «Жизнь» Конвея с использованием минимальных архитектур за счёт применения специфических индуктивных смещений, а не полагаясь на масштабные процессы поиска. Авторы демонстрируют, что варианты сетей с альтернативными функциями активации значительно превосходят стандартные линейные блоки с пороговым значением (ReLU), особенно благодаря использованию полиномиальных функций активации второй степени.

arxiv arXiv cs.LG · 10 ч назад

Количественная оценка согласованности между мерами влияния данных и сходства данных в LLM

В данном исследовании количественно оценивается согласованность между мерами сходства данных и влияния данных, используемыми для отслеживания выходов LLM обратно к обучающим данным, выявляя значительное пересечение с асимметрией, при которой влияние данных более последовательно ранжирует наиболее похожие документы. Эксперименты на моделях, включая OLMo2-1B, Qwen3-1.7B, LlaMa3.2-1B, Gemma3-1B и GPT2, демонстрируют, что эта асимметрия позволяет достичь выгодного компромисса между стоимостью и точностью за счет использования влияния данных для уточнения результатов более дешевого сходства данных.

arxiv arXiv cs.LG · 10 ч назад

Масштабирование линейной связности режимов и слияния для предобученных трансформеров с миллиардом параметров

Исследователи предлагают масштабируемую рамку для объединения независимо обученных трансформеров с миллиардом параметров, используя линейную связность режимов, что позволяет преодолеть ограничения масштабируемости существующих методов. Подход использует преобразования весов, сохраняющие функцию, и двойной процесс обучения, в котором обе модели совместно оптимизируются к общему пути линейной интерполяции.

arxiv arXiv cs.LG · 10 ч назад

Открытие причинности в эпоху агентов

В статье утверждается против использования больших языковых моделей для вывода причинных структур, предупреждая, что такие подходы рискуют спутать текстовые ассоциации с настоящими причинными доказательствами. Вместо этого предлагается, чтобы агенты лишь помогали рабочему процессу, проверяя данные и объясняя предположения, оставляя причинные утверждения опирающимися на формальные алгоритмы и диагностику.

media r/LocalLLaMA · 10 ч назад

Пользователь запускает Qwen3.6-27B на бюджетном оборудовании для создания прототипов в строительной сфере

Пользователь Reddit демонстрирует запуск модели Qwen3.6-27B, квантованной до Q3 с KV при Q8, на GPU AMD Mi50 32 ГБ, достигая скорости около 180+ токенов в секунду для обработки запроса и 9 токенов в секунду для генерации текста.

media r/LocalLLaMA · 10 ч назад

Движок NPC на основе локальных моделей

Разработчик создал игронезависимый бэкенд движка NPC, который использует небольшие локальные модели для достижения быстрого времени отклика и приемлемого качества в ролевых играх. Система использует NVIDIA Parakeet 0.6 для преобразования речи в текст, Gemma 4 26B A4B в качестве LLM и Qwen3-TTS для синтеза голоса.

media r/LocalLLaMA · 10 ч назад

Производительность разделения тензоров на eGPU с низкой пропускной способностью (TB3) и вопрос

Пользователь сообщает о тестировании режима разделения тензоров с двумя внешними GPU Morefine G1 4090M 16GB, подключенными через Thunderbolt 3 со скоростью 40 Гбит/с. В то время как режим разделения слоев обеспечивает высокие скорости токенов для префилла (PP) и генерации текста (TG), режим разделения тензоров насыщает обе карты во время TG, но страдает от низкой производительности PP из-за насыщения пропускной способности.

arxiv arXiv cs.LG · 11 ч назад

Выявление скрытых групп для устойчивой классификации

Авторы предлагают нейронные классификационные деревья (NCT), фреймворк, который обеспечивает устойчивость за счёт кодирования структуры подгрупп внутри своей древовидной архитектуры для устранения ложных корреляций в моделях машинного обучения.

arxiv arXiv cs.LG · 11 ч назад

Отбор данных через итеративную самодиагностику для задач визуального языка

Исследователи предлагают новый метод с самонастраивающимся отбором, названный Self-Filtering, который обучает модель CLIP на эволюционирующем наборе данных, отобранном через итеративную самодиагностику. Этот подход балансирует между отфильтрованными высоковероятными чистыми примерами и разнообразными образцами из всего распределения, чтобы снизить уровень шума в крупномасштабных наборах данных для визуального языка.

arxiv arXiv cs.LG · 11 ч назад

Hedgementation: Бенчмарк дистанционного зондирования для сегментации живых изгородей

Авторы предлагают Hedgementation, новый бенчмарк, разработанный для оценки моделей машинного обучения при картографировании живых изгородей по данным дистанционного зондирования в масштабах страны с пространственным разрешением 10 м². Эта инициатива объединяет и гармонизирует несколько продуктов дистанционного зондирования и эталонных меток, полученных из французского реестра живых изгородей.

arxiv arXiv cs.LG · 11 ч назад

RECALL: Коллекция данных для восстановления опыта в активном непрерывном обучении моделей Vision-Language-Action

В данной статье предлагается активная парадигма непрерывного обучения для моделей Vision-Language-Action (VLA), направленная на устранение неэффективности пассивного обучения с подражанием. Авторы демонстрируют, что сбор данных, направляемый неопределённостью, повышает эффективность дообучения, но приводит к катастрофическому забыванию при исключительно использовании данных восстановления.

arxiv arXiv cs.LG · 11 ч назад

DiT-Reward: Генеративные представления для моделирования вознаграждения в задачах text-to-image

В статье представлен DiT-Reward — метод, который превращает предварительно обученный Diffusion Transformer для генерации изображений по тексту в модель вознаграждения за счёт обработки почти чистых латентных представлений изображений и агрегирования текстово-условных представлений по слоям трансформера. Этот подход использует генеративные представления для оценки качества сгенерированных изображений без необходимости отдельных целей обучения.

arxiv arXiv cs.LG · 11 ч назад

Muown неявно выполняет затухание углового шага

В статье показано, что направленное обновление Muown эквивалентно римановскому шагу по нормализованным направлениям, при этом величина ненормализованной параметризации модулирует угловой шаг. Это понимание объясняет стабильность размера шага Muown и мотивирует разработку AngularMuown, которая оптимизирует напрямую по нормализованным направлениям с явным, настраиваемым по расписанию угловым множителем.