Code generation
media r/LocalLLaMA · 4 д назад

Проверка скорости GLM-5.2 UD-IQ1_M на llama.cpp с 5090 и 3090 Ti

Проверка скорости GLM-5.2, квантованной до UD-IQ1_M, с использованием llama.cpp показывает 579 t/s при предзаполнении на 8k контексте и 324 t/s при 57k контексте. Скорость декодирования остается стабильной на уровне 10.6 t/s более чем на 580 токенов, снижаясь до 9.37 t/s при 60k контексте.

media r/LocalLLaMA · 4 д назад

Я создал инструмент, который позволяет избегать ручного переключения моделей на моем GPU объёмом 8 ГБ

Я разработал Prompt-Chain — приложение на Streamlit, которое соединяет небольшую модель Prompter с большой моделью Coder в одну цепочку. Оно автоматически переключает VRAM при переходе от уточнения промпта к генерации кода, устраняя ручное переключение моделей и снижая количество потерянных токенов из-за плохо сформулированных промптов.

media r/LocalLLaMA · 4 д назад

GLM5.2 работает на 7tg на 4х GeForce 3090 с 192 ГБ DDR5 в бюджетном сборке

Пользователь делится своими настройками домашнего лабораторного стенда с четырьмя видеокартами GeForce 3090 и 192 ГБ ОЗУ DDR5, настроенных на частоту 5600 МГц. Они запускают GLM5.2 на уровне 7 терагига (tg) как планировщик, MiniMax 2.7 на уровне 45tg в ОЗУ для программирования, и Qwen3.6 27B на уровне q8 для тестирования, всё на consumer-grade оборудовании из-за финансовых соображений.

media r/LocalLLaMA · 4 д назад

Qwen3.6-35B-A3B APEX на RTX 3090: сравнительные показатели скорости и качества

Бенчмарк сравнивает форки llama.cpp (ik_llama и spiritbuun), работающие с моделью Qwen3.6-35B-A3B APEX в режимах I-Compact и I-Quality. ik_llama с I-Compact достигает максимальной скорости (~146 TPS), в то время как spiritbuun с I-Quality и кэшем turbo8/turbo4 достигает такой же скорости и обеспечивает немного лучшие показатели по HellaSwag. Кэши turbo8/turbo4 превосходят q8_0/q5_0, особенно при длинных контекстах, обеспечивая до 15% роста скорости и меньшую величину KLD, что делает их превосходными для качества и длины контекста.

media Hugging Face Forums · 4 д назад

Я создал новую тройную гибридную модель языковой модели с менее чем 1 миллиард параметров за ~$50

Mateusz разработал полностью предобученную модель языка Project Inkblot's Titan v1, объединяющую Mamba SSM, Multi-Head Attention и 32-экспертную MoE в одной архитектуре декодера-только, с менее чем 1 миллиард параметров. Модель, обученная на одном GPU NVIDIA L4 за ~$50, достигает значения перпексивности 27.5 на валидационной выборке и демонстрирует эффективное масштабирование при изменении одной строки конфигурации, при этом все компоненты реализованы с нуля на PyTorch. Первый цикл обучения Titan v2 теперь завершён, и происходит расширение датасета.

media Hugging Face Forums · 4 д назад

ML-модели-замещения в CFD/FEA: практические подходы и проблемы

Инженерные специалисты отмечают, что графовые нейронные сети и многослойные перцептроны на параметризованных конструкциях обеспечивают наилучший практический баланс при предсказании полей, таких как температура и напряжение. Достигается высокая эффективность при использовании 10–50 образцов обучения, особенно при применении передачи знаний между геометриями, похожими на исходные. Модели, основанные на физических принципах (PINNs), остаются в основном экспериментальными для сложных инженерных геометрий, при этом большинство пользователей полагаются на данные-ориентированные замещения. Обобщение остается ключевой проблемой, поскольку модели часто не справляются с граничными условиями, выходящими за рамки распределения, что приводит к возвращению к полным расчетам решателей.

media r/LocalLLaMA · 4 д назад

Отчет по техническим характеристикам Ling и Ring 2.6: выпуск моделей с параметрами в триллион

Ling и Ring 2.6 выпустили базовые модели Ling-2.6-1T и Ling-2.6-flash, которые доступны на Hugging Face. Модель Ling-2.6-flash (100B параметров) обеспечивает быструю инференс-обработку для пользователей с 24-32 ГБ VRAM, обеспечивая высокую производительность при инференсе только на процессоре с 32 ГБ ОЗУ.

media MarkTechPost · 4 д назад

7 типов памяти агента: техническое руководство

Большие языковые модели по умолчанию являются безсостоятельными и требуют механизмов памяти для сохранения контекста между взаимодействиями. Семь типов памяти агента — рабочая, семантическая, эпизодическая, процедурная, извлечения, параметрическая и прозрачная — классифицируют память по форме и продолжительности, позволяя агентам планировать, учиться и действовать в течение времени. Каждый тип выполняет определенные задачи, от хранения предпочтений пользователей до планирования будущих целей, и вместе они образуют комплексную систему для долгосрочных, контекстосознательных ИИ-агентов.

media MarkTechPost · 4 д назад

Инструкция по созданию интерактивных дашбордов на Python с использованием Prefab

Этот турнир демонстрирует, как создавать интерактивные дашборды на Python с использованием компонентного UI-фреймворка Prefab. Он генерирует синтетические данные для потока, интегрирует реактивные элементы управления, такие как диаграммы, формы и вкладки, и экспортирует приложение в виде статического HTML-файла для прямого просмотра в Google Colab.

media Hugging Face Forums · 4 д назад

Тьма из механизмов: локальный первый движок AI-ролевой игры с сюжетом

Тьма из механизмов — это локальный первый движок ролевой игры с сюжетом, использующий детерминированный конечный автомат для разрешения всех игровых механик. В движке присутствуют два автономных языковых модели, которые рассказывают сюжет: один выступает в роли спокойного голоса мира, другой — как ненадёжный, божественный помощник. Игра предлагает игрокам выбор: сражаться с приближающейся сверхъестественной коррупцией или принять спокойную жизнь в пекарне, при этом оба пути считаются законченными вариантами.

lab OpenAI News · 4 д назад

Самсунг внедряет ChatGPT и Codex для сотрудников

Компания Samsung Electronics внедрила в свою глобальную команду Enterprise-версию ChatGPT от OpenAI и Codex. Такое внедрение является одним из крупнейших предприятий по внедрению искусственного интеллекта от OpenAI на сегодняшний день.

media r/LocalLLaMA · 4 д назад

Qwen 27B для планирования, Qwen 35B-A3B для выполнения

Пользователь исследует использование Qwen 27B для планирования долгосрочных задач и Qwen 35B-A3-Б для быстрого выполнения, отмечая, что 27B работает со скоростью 7-10 токенов в секунду, а 35B-A3B — около 18 токенов в секунду. Пользователь рассматривает переключение между моделями для использования их различных преимуществ, хотя в настоящее время использует 35B-A3B исключительно и задаётся вопросом о значимости интеллектуального разрыва между моделями.

media r/LocalLLaMA · 4 д назад

Результаты и рекомендации по обновленному бенчмарку визуальных моделей

Обновленный бенчмарк локальных визуально-языковых моделей оценивает 23 модели по 30 изображениям с 3 тестами каждое, что в сумме составляет 2070 тестов и 60 до 70 часов инференса. Самой эффективной моделью является Qwen3.6 27B (nothink) на Q4 с оценкой 79.6, за ней следует Qwen3.5 4B (nothink) на Q4, а затем Qwen3-VL 8B на Q8. Ключевые выводы включают снижение производительности визуальных моделей при использовании режима мышления, низкую эффективность моделей с архитектурой MoE по сравнению с плотными моделями, а также отсутствие универсального улучшения результатов при квантовании на Q8.

media r/LocalLLaMA · 5 д назад

Я предобучил и постобучил 500M параметровую модель LLM и 330M параметровую генератор изображений с нуля

Автор предобучил модель языка на 500M параметров и генератор изображений на 330M параметров с нуля, используя 40B токенов из fineweb. Генератор изображений был вдохновлён архитектурой DreamLite от ByteDance и обучался на смеси датасетов из MidJourney, Flux и CCW3.

media AI News (smol.ai) · 5 д назад

Разрыв и прогресс открытия моделей GLM-5.2

Модель GLM-5.2 от Zhipu стала лучшей открытым весами, похвалена за свою производительность, приближенную к передовым, в повседневном использовании, с улучшением в задачах программирования и сокращением стоимости инференса на 1 млн токенов за счёт IndexShare. Она превзошла другие открытые модели в тестах по агентским задачам, достигнув 1266 Elo в тесте AA-Briefcase от Artificial Analysis, хотя только 3% задач были полностью выполнены лучшими моделями, что указывает на сохраняющиеся трудности в реальных долгосрочных агентских задачах.

lab Hugging Face Blog · 5 д назад

Можно ли победить LoRA при мелком настройке?

Новое исследование рассматривает альтернативы LoRA, наиболее популярному методу мелкой настройки, оценивая, могут ли другие подходы обеспечить лучшие результаты с меньшими вычислительными затратами. Исследование показывает, что хотя некоторые подходы показывают перспективы, ни один из них не демонстрирует стабильного превосходства над LoRA при различных задачах и наборах данных.

media AI News (smol.ai) · 5 д назад

GLM-5.2 появляется как ведущая модель открытого веса для кодирования

GLM-5.2 широко считается первой моделью открытого веса, которая конкурирует с передовыми моделями, такими как Opus 4.8 и GPT-5.5, по своим возможностям. Практикующие отмечают сильное использование инструментов, долгосрочное планирование и поведение автономных подагентов, и консенсус о том, что модель теперь действительно функционирует в передовой области SWE. Появление модели подчеркивает растущую ценность открытых весов для конкуренции поставщиков, развертывания на локальных серверах и снижения зависимости от поставщиков.

media r/LocalLLaMA · 5 д назад

2× Radeon R9700 с моделью Qwen 3.6 27B Q8 MTP на llama.cpp

Пользователь сообщает о запуске модели Qwen 3.6 27B MTP на двух GPU Radeon R9700 через llama.cpp с использованием ROCm 7.2.1. Проверки показывают стабильные скорости декодирования (40–67 t/s) и пропускную способность предварительной обработки (до 1500 t/s для промптов длиной менее 10 тысяч токенов), при этом коэффициенты принятия проектов MTP варьируются от 0.33 до 0.61.

media r/LocalLLaMA · 5 д назад

Могу ли я реально достичь способностей Клауде/Кодекса локально?

Пользователь с системой на 32 ГБ спрашивает, могут ли открытые модели соответствовать производительности Opus 4.8 в контексте из 1 млн токенов и в кодировании на локальной аппаратной платформе. Он отмечает, что текущие ограничения — это длина контекста и вопросы конфиденциальности, и спрашивает, возможно ли реализовать высококачественные модели, такие как GLM 5.2 или Qwen3.7, в рамках бюджета в 3500 долларов, подчеркивая, что запуск моделей на 70-80 миллиардов параметров даёт минимальные реальные преимущества по сравнению с моделями на 27 миллиардов параметров с контекстом в 256 тысяч токенов.