Code generation
media Hugging Face Forums · 2 д назад

Модель музыки на основе ИИ работает в реальном времени на большинстве процессоров в браузере

NanoMaestro Realtime — это модель музыки на основе ИИ размером 50 МБ с 13 миллионами параметров, которая генерирует музыку на пианино в реальном времени с использованием двухслойного LSTM. Она работает локально в браузере через ONNX и Transformers.js с WASM, не требуя GPU или серверной стороны, и работает на старых моделях Raspberry Pi.

media r/LocalLLaMA · 2 д назад

Microsoft выпустил открытый исходный код FastContext для агентов кодирования на основе LLM

Microsoft выпустил FastContext-1.0, легкий подагент для исследования репозиториев кода, который отделяет исследование репозиториев кода от решения задач в агентах кодирования на основе LLM. Он использует параллельные только для чтения вызовы инструментов для возврата компактных путей к файлам и диапазонов строк, что улучшает общую точность и снижает использование токенов на 60,3%, при этом модель 4B-RL превосходит модель 30B-SFT по SWE-bench Pro.

blog Simon Willison · 2 д назад

Перенос модели Moebius 0.2B для inpainting изображений в браузер с использованием Claude Code

Модель Moebius 0.2B для inpainting изображений успешно была перенесена для работы в браузере с использованием WebGPU и ONNX Runtime. Проект, инициированный с помощью Claude Code, преобразует веса модели в ONNX и развертывает их через Hugging Face, с простым веб-интерфейсом, доступным по адресу simonw.github.io/moebius-web/.

media r/LocalLLaMA · 2 д назад

Потенциал Gemma 4 превзойти Mistral и Qwen3.6 за счёт тонкой настройки

Gemma 4 демонстрирует сильную базовую производительность и уникальные функции, такие как поддержка глобального MTP, QAT и встроенные визуальные возможности. Хотя на данный момент у модели отсутствуют широкие тонкие настройки, модели, такие как MeroMero, Equinox и Gembrain, уже продемонстрировали высокое качество, что указывает на то, что при совместных усилиях Gemma 4 может превзойти Mistral или Qwen3.6 в определённых задачах, таких как программирование и креативное письмо.

lab Claude Code Releases · 2 д назад

Примечания по выпуску Claude v2.1.186

Claude v2.1.186 добавляет команды аутентификации через CLI для серверов MCP, фильтрацию статуса в рабочих процессах и раздел "Навыки" в настройках плагинов. В него включены множество исправлений ошибок в интерфейсе, управлении сессиями и поведении агента, а также улучшения парсинга YAML, управления памятью и проверки инструментов.

media MarkTechPost · 2 д назад

Sakana AI представляет Sakana Fugu: модель оркестрации агентов

Sakana AI представил Sakana Fugu — модель оркестрации, которая распределяет задачи по обменному пулу передовых моделей языковой обработки через одну API-интерфейс, совместимую с OpenAI. Fugu Ultra превосходит отдельные модели по ключевым тестам, таким как SWE Bench Pro и GPQA-D, и система демонстрирует превосходную производительность на сложных многократных задачах, таких как автоматическое исследование, решение кубика Рубика и игра в шахматы на глазах.

media r/LocalLLaMA · 3 д назад

Лучшая локальная модель для преобразования текста в структурированный JSON

Пользователи ищут локальную модель, эффективно преобразующую неструктурированный текст в действительный JSON на основе заданной схемы. Среди проверенных моделей модель Qwen 3.6 35B a3b показывает сильную производительность, соответствующую качеству более крупных моделей, таких как GPT-120B, при этом более стабильна на локальных машинах, чем GPT-20B.

media r/LocalLLaMA · 3 д назад

NEX-N2-mini утверждает достижение парето-оптимальности в эффективности мышления

Модель NEX-N2-mini утверждает, что достигает уровня мышления 3,5 и 3,6 с значительно меньшим количеством токенов мышления. Проверки показывают, что она превосходит другие модели на основе MoE по эффективности, снижая количество потерянных токенов, при этом сохраняя высокое качество мышления.

media r/LocalLLaMA · 3 д назад

Gemma4-12B-QAT Uncensored Balanced Released with 60% Speed Boost via MTP

Модель Gemma4-12B-QAT Uncensored Balanced теперь доступна, с улучшением скорости на 60% за счёт спекулятивного декодирования на основе многотокенного предсказания (MTP). В ней используется квантование Q4_K_M, поддержка визуальных данных через mmproj и стабильное генерирование без циклов или смещения контекста, что делает её идеальной для задач креативного написания и эмоционального интеллекта.

media r/LocalLLaMA · 3 д назад

Одинаковая модель, одинаковый промпт, 4 разных агента дают разную качество кода

Самостоятельная модель Qwen3.6-27B с идентичным промптом и одинаковым оборудованием сгенерировала четыре различных HTML/JavaScript-симуляции солнечной системы. Структура агента значительно влияла на результат: opencode сгенерировал чистый, стабильный код с точными физическими расчетами; pi продемонстрировал устойчивость и согласованность координат; hermes предложил визуально привлекательные, но физически некорректные результаты; qwen code сгенерировал минимальный и грубый код. Результаты показывают, как проектирование агента формирует качество, корректность и стабильность кода, несмотря на одинаковую модель и промпт.

media Interconnects · 3 д назад

GLM-5.2 — шаг вперёд для открытых агентов

GLM-5.2, открытая модель ИИ, выпущенная Z.ai, установила новый уровень в программировании и общих показателях работы агентов. Она превосходит модели, такие как Claude Fable 5 и Gemini, и достигает или превосходит OpenAI's Opus 4.8 в режиме максимального мышления, становясь первым открытым моделью, которая чувствует себя естественно в программных средах как общий агент.

media r/LocalLLaMA · 3 д назад

Проверка скорости GLM-5.2 UD-IQ1_M на llama.cpp с 5090 и 3090 Ti

Проверка скорости GLM-5.2, квантованной до UD-IQ1_M, с использованием llama.cpp показывает 579 t/s при предзаполнении на 8k контексте и 324 t/s при 57k контексте. Скорость декодирования остается стабильной на уровне 10.6 t/s более чем на 580 токенов, снижаясь до 9.37 t/s при 60k контексте.

media r/LocalLLaMA · 3 д назад

Я создал инструмент, который позволяет избегать ручного переключения моделей на моем GPU объёмом 8 ГБ

Я разработал Prompt-Chain — приложение на Streamlit, которое соединяет небольшую модель Prompter с большой моделью Coder в одну цепочку. Оно автоматически переключает VRAM при переходе от уточнения промпта к генерации кода, устраняя ручное переключение моделей и снижая количество потерянных токенов из-за плохо сформулированных промптов.

media r/LocalLLaMA · 3 д назад

GLM5.2 работает на 7tg на 4х GeForce 3090 с 192 ГБ DDR5 в бюджетном сборке

Пользователь делится своими настройками домашнего лабораторного стенда с четырьмя видеокартами GeForce 3090 и 192 ГБ ОЗУ DDR5, настроенных на частоту 5600 МГц. Они запускают GLM5.2 на уровне 7 терагига (tg) как планировщик, MiniMax 2.7 на уровне 45tg в ОЗУ для программирования, и Qwen3.6 27B на уровне q8 для тестирования, всё на consumer-grade оборудовании из-за финансовых соображений.

media r/LocalLLaMA · 3 д назад

Qwen3.6-35B-A3B APEX на RTX 3090: сравнительные показатели скорости и качества

Бенчмарк сравнивает форки llama.cpp (ik_llama и spiritbuun), работающие с моделью Qwen3.6-35B-A3B APEX в режимах I-Compact и I-Quality. ik_llama с I-Compact достигает максимальной скорости (~146 TPS), в то время как spiritbuun с I-Quality и кэшем turbo8/turbo4 достигает такой же скорости и обеспечивает немного лучшие показатели по HellaSwag. Кэши turbo8/turbo4 превосходят q8_0/q5_0, особенно при длинных контекстах, обеспечивая до 15% роста скорости и меньшую величину KLD, что делает их превосходными для качества и длины контекста.

media Hugging Face Forums · 3 д назад

Я создал новую тройную гибридную модель языковой модели с менее чем 1 миллиард параметров за ~$50

Mateusz разработал полностью предобученную модель языка Project Inkblot's Titan v1, объединяющую Mamba SSM, Multi-Head Attention и 32-экспертную MoE в одной архитектуре декодера-только, с менее чем 1 миллиард параметров. Модель, обученная на одном GPU NVIDIA L4 за ~$50, достигает значения перпексивности 27.5 на валидационной выборке и демонстрирует эффективное масштабирование при изменении одной строки конфигурации, при этом все компоненты реализованы с нуля на PyTorch. Первый цикл обучения Titan v2 теперь завершён, и происходит расширение датасета.

media Hugging Face Forums · 3 д назад

ML-модели-замещения в CFD/FEA: практические подходы и проблемы

Инженерные специалисты отмечают, что графовые нейронные сети и многослойные перцептроны на параметризованных конструкциях обеспечивают наилучший практический баланс при предсказании полей, таких как температура и напряжение. Достигается высокая эффективность при использовании 10–50 образцов обучения, особенно при применении передачи знаний между геометриями, похожими на исходные. Модели, основанные на физических принципах (PINNs), остаются в основном экспериментальными для сложных инженерных геометрий, при этом большинство пользователей полагаются на данные-ориентированные замещения. Обобщение остается ключевой проблемой, поскольку модели часто не справляются с граничными условиями, выходящими за рамки распределения, что приводит к возвращению к полным расчетам решателей.

media r/LocalLLaMA · 3 д назад

Отчет по техническим характеристикам Ling и Ring 2.6: выпуск моделей с параметрами в триллион

Ling и Ring 2.6 выпустили базовые модели Ling-2.6-1T и Ling-2.6-flash, которые доступны на Hugging Face. Модель Ling-2.6-flash (100B параметров) обеспечивает быструю инференс-обработку для пользователей с 24-32 ГБ VRAM, обеспечивая высокую производительность при инференсе только на процессоре с 32 ГБ ОЗУ.