Источник · r/LocalLLaMA
media r/LocalLLaMA · 10 д назад

HalBench проверяет 29 открытых моделей на сикофантизм и халлюцинации

HalBench оценивает 29 открытых моделей языковых моделей на специальном бенчмарке для сикофантизма и халлюцинаций. Qwen 3.6 и Gemma 4 превосходят более крупные модели, при этом Qwen 3.6 достигает 36,6% отклонения — выше, чем у GPT-5.4 и Gemini 3.1 Pro. Размер модели не коррелирует с честными ответами, что указывает на то, что архитектура и обучающие данные важнее, чем количество параметров.

media r/LocalLLaMA · 10 д назад

Выпущен Qwable-v1 как дистиллят Claude Fable-5

Qwable-v1, открытая модель, дистиллированная из Fable-5 от Anthropic, теперь доступна в общественном доступе на Hugging Face. Она содержит 4659 прямых текстовых следов агентного кодирования из публичного корпуса Fable-5 и генерирует корректно сформированные вызовы <tool_use> в формате XML для инструментов, характерных для Claude, отражая исходную поверхность инструментов в своих весах.

media r/LocalLLaMA · 10 д назад

vLLM выпустил новый парсер потока для Qwen3+ в ночной версии

vLLM представил новый парсер потока для Qwen3+, доступный в его ночной сборке, который решает проблемы, такие как остановка на промежуточных этапах и сбой вызова потока инструментов из-за границ блоков. Обновление, по данным, устраняет эти проблемы при ограниченных тестах, повышая надежность для агентных рабочих процессов.

media r/LocalLLaMA · 10 д назад

Какие преимущества предоставляет многомашинная настройка для локальных больших языковых моделей?

Пользователи спрашивают, предоставляют ли запуск нескольких машин параллельно преимущества для обработки больших контекстов или более быстрого инференса в локальных больших языковых моделях. Хотя отдельные машины могут обрабатывать большие контексты при достаточном объеме ОЗУ, не существует установленного прогресса, позволяющего получить значительные вычислительные преимущества от распределения инференса между несколькими машинами для локальных больших языковых моделей.

media r/LocalLLaMA · 10 д назад

Еще ли квантованные модели генерации изображений находятся в стадии разработки?

Пользователи отмечают непостоянные результаты при использовании квантованных моделей для генерации изображений, при этом SD 1.5 работает хорошо, а SDXL — нет. Несмотря на успешное преобразование и квантование с помощью инструментов, таких как convert.py и llama-quantize, некоторые пользователи получают плохие результаты, в то время как другие — нет, что вызывает вопросы относительно текущего состояния и надежности технологии квантованной генерации изображений.

media r/LocalLLaMA · 10 д назад

Nex2 mini Phase Twin 16 ГБ, модель 30B выпущена

Модель Nex2 mini Phase Twin с 30 миллиардами параметров и объемом памяти 16 ГБ теперь доступна для пользователей Intel, в частности для линейки A770. Она работает со скоростью 89 токенов в секунду на одной карте A770 и оптимизирована для использования соответствующего ядра в зависимости от оборудования, обеспечивая повышенную производительность при использовании двух карт.

media r/LocalLLaMA · 10 д назад

DGX Spark подвергается несправедливой критике

DGX Spark подвергается несправедливой критике, несмотря на то, что он обладает сильной масштабируемостью и приемлемой локальной производительностью ИИ. Технология ConnectX позволяет бесперебойное расширение, и при мощности 240 Вт он позволяет запускать локальную работу agentic DS4Flash за около 9 тысяч долларов с 256 ГБ CUDA-памяти.