r/LocalLLaMA — korshunov.ai — новости ML

Источник · r/LocalLLaMA

GLM-5.2 — первый открытый модель с весами, достигший точности 80% на Terminal-Bench и превосходящий все другие доступные открытые модели. Он также превосходит Gemini, что делает его моделью передовой категории при значительно более низкой стоимости.

media r/LocalLLaMA · 9 д назад

HalBench проверяет 29 открытых моделей на сикофантизм и халлюцинации

HalBench оценивает 29 открытых моделей языковых моделей на специальном бенчмарке для сикофантизма и халлюцинаций. Qwen 3.6 и Gemma 4 превосходят более крупные модели, при этом Qwen 3.6 достигает 36,6% отклонения — выше, чем у GPT-5.4 и Gemini 3.1 Pro. Размер модели не коррелирует с честными ответами, что указывает на то, что архитектура и обучающие данные важнее, чем количество параметров.

media r/LocalLLaMA · 8 д назад

Я выпустил Inflect-Nano, экстремально маленький модель TTS с 4,63 млн параметров

Модель Inflect-Nano-v1 является второй по размеру публично доступной моделью TTS после TinyTTS, с общим количеством 4,63 млн параметров. Она показывает удивительно хорошие результаты при таком размере, работает локально на устройствах с низкой производительностью и служит базой для небольших систем синтеза речи в встраиваемых или оффлайн-приложениях.

media r/LocalLLaMA · 8 д назад

Lemonade v10.8 Выпускает автоматическое управление памятью, поддержку облака и инструменты MCP

Lemonade v10.8 вводит динамическое управление памятью VRAM, которое автоматически выгружает неиспользуемые модели и уменьшает кэш KV для освобождения памяти GPU. Вводится поддержка облака для поставщиков, совместимых с OpenAI, что позволяет осуществлять локальное обслуживание моделей с возможностью маршрутизации в облако. Новый веб-интерфейс MCP открывает локальные модели как инструменты через POST /mcp, позволяя использовать локальные модели как инструменты в приложениях, оснащенных MCP.

media r/LocalLLaMA · 8 д назад

США отложили включение в чёрный список китайской компании DeepSeek

Источники сообщают, что США отложили включение в чёрный список китайской компании DeepSeek по вопросам искусственного интеллекта. Более 100 компаний были признаны угрозой для безопасности в ходе этого решения.

media r/LocalLLaMA · 8 д назад

GLM-5.2-FP8 HGX-H200 SGLang Docker Deployment Config

Пользователь делится конфигурацией Docker для запуска GLM-5.2-FP8 на аппаратных средствах HGX-H200 с использованием SGLang. Настройка достигает длины контекста 262k и скорости 70 токенов в секунду при 8 параллелизме тензоров, используя долю памяти 0.83. Пользователь отмечает, что официальные рецепты vLLM не работают на H200 из-за ограничений квантования FP8 кэша KV на архитектуре DSV3.

media r/LocalLLaMA · 8 д назад

LoopCoder-V2: Модель PLT с двумя циклами достигает наилучшего соотношения выгоды и затрат

LoopCoder-V2 — это модель кода на 7B параметров, обученная на параллельном трансформере (PLT), и обученная на 18T токенов смешанных текстовых и кодовых данных. Вариант с двумя циклами достигает наилучшего соотношения выгоды и затрат, увеличивая SWE-bench Verified с 43.0 до 64.4, в то время как три или более циклов приводят к регрессии из-за роста позиционного несоответствия и нестабильных обновлений.

media r/LocalLLaMA · 8 д назад

GameCraft-Bench: Может ли агент создавать развертываемые игры в реальном движке игры?

GameCraft-Bench оценивает, может ли большой языковой модель создавать развертываемые игры в целом с использованием реального движка игры. Бенчмарк включает оценку таких основных моделей, как Opus-4.7 и GPT-5.5, и интересуется тем, как модели среднего размера (например, 30-70 миллиардов параметров) выполняют задачи в области разработки игр.

media r/LocalLLaMA · 8 д назад

Gemma 4 E2B работает со скоростью 255 токенов в секунду в браузере с использованием WebGPU

Gemma 4 E2B достигает скорости 255 токенов в секунду в браузере на устройстве M4 Max с использованием ядер WebGPU. Демо и ядра теперь доступны на Hugging Face для публичного использования.

media r/LocalLLaMA · 8 д назад

TRELLIS.2 теперь работает нативно на MLX

TRELLIS.2 был перенесён для нативной работы на MLX для процессоров Apple Silicon. Модель поддерживает входные изображения размером 512x512 и 1024x1024, время генерации составляет примерно 70 секунд для изображений 512x517 и от 300 до 700 секунд для изображений 1024x1024 на процессоре M4 Max с 128 ГБ единой памяти.

media r/LocalLLaMA · 8 д назад

GLM-5.2 — победа для локальной ИИ

GLM-5.2, содержащий 753 миллиарда параметров и окно контекста в 1 миллион токенов, теперь доступен на локальной аппаратуры через квантование. Его лицензия MIT и обширные обучающие данные позволяют сообществу проводить настройку более мелких моделей, что обещает значительные улучшения для локальных решений ИИ.

media r/LocalLLaMA · 8 д назад

Циклы бездействующих скриншотов позволяют 30B локальному агенту отладить raytraced FPS на чистом C

Локальный агент на 30B, используя циклы бездействующих скриншотов, автономно отлаживает демонстрацию raytraced FPS на чистом C, захватывая кадры на ключевых событиях и итерируя по исправлениям. Агент строит рекурсивный визуальный цикл отладки, демонстрируя, что простые механизмы обратной связи могут позволить малым моделям решать сложные визуально обусловленные задачи.

media r/LocalLLaMA · 8 д назад

SIQ-1 Qwen3.6 достигает сильных результатов в автознаниях и тестировании

Модель SIQ-1, обученная с использованием PPO с верифицируемой наградой, превосходит GLM-5.2 и Qwen-350B по задачам параметрического гольфа, с выводами, схожими с Opus4.8. Она также побеждает NEX и GPT-5.5 на тесте bullshit-bench. Модель и её версия GGUF доступны на Hugging Face, а также представлен демонстрационный агент, совместимый с ZeroGPU.

media r/LocalLLaMA · 8 д назад

Локальные модели перешли от в основном бесполезных до действительно полезных за один год

Локальные модели перешли от того, что они были в основном ориентированы на приватность и служили игрушками, до практических инструментов для программирования, управления частными документами и локальных рабочих процессов за один год. Хотя они всё ещё не могут заменить лучшие закрытые модели при выполнении сложных задач, требующих планирования и исправления ошибок, общий рост в удобстве и производительности очевиден.

media r/LocalLLaMA · 8 д назад

GLM-5.2: Создан для задач с длительным горизонтом

GLM-5.2 — это языковая модель, разработанная специально для задач с длительным горизонтом. Она направлена на более эффективное выполнение сложных, многошаговых рассуждений и долгосрочного планирования за счёт улучшения способности сохранять контекст на протяжении длительных последовательностей.

media r/LocalLLaMA · 9 д назад

GLM-5.2 теперь первый на Design Arena

GLM-5.2 был оценен на первом месте на Design Arena, превзойдя ранее доступный Claude Fable 5. Модель Claude Fable 5 теперь недоступна, что способствовало первому месту у GLM-5.2.

media r/LocalLLaMA · 9 д назад

Zhipu вырос на 33% после того, как Биржевые рынки увеличили ставки на китайскую ИИ-сферу после того, как Anthropic сократил свои операции

Цена акций Zhipu выросла на 33%, после того как рынки США увеличили интерес к сектору искусственного интеллекта в Китае. Рост произошел после того, как компания Anthropic, американская компания по ИИ, сократила свои операции, что вызвало у рынка спекуляции относительно конкурентных отношений в глобальном развитии ИИ.

media r/LocalLLaMA · 9 д назад

GLM-5.2 выпустил открытые веса с сильной производительностью в программировании

GLM-5.2 был выпущен с открытыми весами, окном контекста в 1 млн токенов, лицензией MIT и двумя режимами рассуждения. Первые результаты показывают, что он занимает приблизительно первые позиции в тестах на программирование, что указывает на сильный потенциал в реальных условиях использования, превосходя модели, работающие только через API.

media r/LocalLLaMA · 9 д назад

Живой API GLM 5.2, веса на Hugging Face, поддержка Ollama

Живой API GLM 5.2 теперь доступен, веса модели доступны на Hugging Face по лицензии MIT и поддерживаются Ollama. Модель предлагает два режима мышления — Высокий и Максимум — с длиной контекста 1 млн токенов, цена составляет 1,4 доллара за 1 млн входных токенов и 4,4 доллара за 1 млн выходных токенов, что соответствует GLM-5.1.

media r/LocalLLaMA · 9 д назад

Мы открыли исходный код нашего агента на основе больших языковых моделей для быстрого обнаружения сбоев

Approxima — это открытый исходный, самодостаточный агент по вопросам и ответам, который отслеживает пользовательские маршруты и поддерживает Claude, Gemini и GPT по умолчанию. Он включает режим Explore, A/B-тестирование и самовосстановление для адаптации к эволюции продукта, с полной поддержкой локальных моделей и вклада сообщества.

GLM-5.2 превышает 80% на Terminal-Bench

HalBench проверяет 29 открытых моделей на сикофантизм и халлюцинации

Я выпустил Inflect-Nano, экстремально маленький модель TTS с 4,63 млн параметров

Lemonade v10.8 Выпускает автоматическое управление памятью, поддержку облака и инструменты MCP

США отложили включение в чёрный список китайской компании DeepSeek

GLM-5.2-FP8 HGX-H200 SGLang Docker Deployment Config

LoopCoder-V2: Модель PLT с двумя циклами достигает наилучшего соотношения выгоды и затрат

GameCraft-Bench: Может ли агент создавать развертываемые игры в реальном движке игры?

Gemma 4 E2B работает со скоростью 255 токенов в секунду в браузере с использованием WebGPU

TRELLIS.2 теперь работает нативно на MLX

GLM-5.2 — победа для локальной ИИ

Циклы бездействующих скриншотов позволяют 30B локальному агенту отладить raytraced FPS на чистом C

SIQ-1 Qwen3.6 достигает сильных результатов в автознаниях и тестировании

Локальные модели перешли от в основном бесполезных до действительно полезных за один год

GLM-5.2: Создан для задач с длительным горизонтом

GLM-5.2 теперь первый на Design Arena

Zhipu вырос на 33% после того, как Биржевые рынки увеличили ставки на китайскую ИИ-сферу после того, как Anthropic сократил свои операции

GLM-5.2 выпустил открытые веса с сильной производительностью в программировании

Живой API GLM 5.2, веса на Hugging Face, поддержка Ollama

Мы открыли исходный код нашего агента на основе больших языковых моделей для быстрого обнаружения сбоев