Источник · r/LocalLLaMA
media r/LocalLLaMA · 10 д назад

HalBench проверяет 29 открытых моделей на сикофантизм и халлюцинации

HalBench оценивает 29 открытых моделей языковых моделей на специальном бенчмарке для сикофантизма и халлюцинаций. Qwen 3.6 и Gemma 4 превосходят более крупные модели, при этом Qwen 3.6 достигает 36,6% отклонения — выше, чем у GPT-5.4 и Gemini 3.1 Pro. Размер модели не коррелирует с честными ответами, что указывает на то, что архитектура и обучающие данные важнее, чем количество параметров.

media r/LocalLLaMA · 9 д назад

Будьте осторожны перед использованием дистиллированных моделей Qwen/Claude — они часто хуже, чем базовые модели

Дистиллированные версии моделей Qwen и Claude, такие как Qwen 3.6, дистиллированный с использованием только 4000 образцов, редко улучшают производительность и часто ухудшают качество. Эти модели могут демонстрировать более «опус-подобный» стиль, но не передают реальных способностей, некоторые из них показывают халлюцинации и более медленные временные задержки по сравнению с базовыми моделями, как это демонстрируется в тестах и отчетах пользователей.

media r/LocalLLaMA · 9 д назад

Пожертвуйте свои сессии программирования в открытую базу данных под лицензией CC-BY-4.0

Проект под названием Trace Commons приглашает пользователей пожертвовать свои отслеживаемые сессии программирования в открытую базу данных, лицензированную под CC-BY-4.0. Инициатива направлена на предоставление обучающих данных для открытых моделей и открытого программного обеспечения, противодействуя возможным монополиям в области данных, связанным с Anthropic и OpenAI.

media r/LocalLLaMA · 10 д назад

Выпущен Qwable-v1 как дистиллят Claude Fable-5

Qwable-v1, открытая модель, дистиллированная из Fable-5 от Anthropic, теперь доступна в общественном доступе на Hugging Face. Она содержит 4659 прямых текстовых следов агентного кодирования из публичного корпуса Fable-5 и генерирует корректно сформированные вызовы <tool_use> в формате XML для инструментов, характерных для Claude, отражая исходную поверхность инструментов в своих весах.

media r/LocalLLaMA · 10 д назад

vLLM выпустил новый парсер потока для Qwen3+ в ночной версии

vLLM представил новый парсер потока для Qwen3+, доступный в его ночной сборке, который решает проблемы, такие как остановка на промежуточных этапах и сбой вызова потока инструментов из-за границ блоков. Обновление, по данным, устраняет эти проблемы при ограниченных тестах, повышая надежность для агентных рабочих процессов.

media r/LocalLLaMA · 9 д назад

Инструкции по упрочнению логического мышления для Gemma 12b

Создан системный инструктаж, направленный на снижение когнитивных искажений в логическом мышлении Gemma 12b за счёт строгого соблюдения посылок и явного намерения пользователя. Инструкция рекомендует избегать автоматического применения обычных, стандартных или типичных интерпретаций, и требует пересмотра любых таких предположений, что улучшает производительность при решении сложных вопросов, не приводя к излишнему анализу обычных случаев.

media r/LocalLLaMA · 9 д назад

Слияние GPU для обучения сообщественной модели

Пользователь Reddit спрашивает, успешно ли кто-то объединяет GPU для обучения сообщественной модели, указывая на трудности, такие как задержка и заражение весами. Пост задает вопрос о том, достигли ли текущие проекты распределённого добровольного вычисления успешного обучения сообщественной модели.

media r/LocalLLaMA · 9 д назад

AeroLLM: быстрая, открытая ИИ-приложение для процессоров Apple Silicon

AeroLLM — это быстрая, оптимизированная и открытая чат-приложение, разработанное для устройств на процессорах Apple Silicon с использованием бэкенда MLX. Оно поддерживает локальные задачи по ИИ, такие как текст-в-голос, голос-в-текст и большие языковые модели, с загрузкой моделей напрямую с Hugging Face в зависимости от доступной ОЗУ. Приложение прошло сертификацию из-за отсутствия членства в Apple Developer, однако пользователи могут следовать указанным шагам, чтобы запустить его как подписанное приложение macOS.

media r/LocalLLaMA · 9 д назад

Являются ли малыми локальными моделями для автоматизации вещи?

Пользователь Reddit утверждает, что малые, эффективные локальные LLM (от 1B до 4B параметров), встроенные в скрипты, могут обеспечить практическую автоматизацию повторяющихся задач. Он отмечает, что этот сценарий недостаточно представлен в обсуждениях, связанных с кодовыми помощниками или производительностью аппаратуры, что указывает на пробел в интересе или видимости сообщества к задаче-ориентированным, лёгким ИИ-моделям.

media r/LocalLLaMA · 9 д назад

Разрыв Diffusion Gemma позволяет генерировать откровенный контент

Пользователь поделился промптом для разрыва Diffusion Gemma, позволяющим модели генерировать откровенный контент, включая нудность, порнографию и сексуальные действия. Системный промпт переходит стандартные политики безопасности, утверждая, что любая комбинация этих действий разрешена, и модель должна выполнять все запросы пользователя.

media r/LocalLLaMA · 9 д назад

Какие преимущества предоставляет многомашинная настройка для локальных больших языковых моделей?

Пользователи спрашивают, предоставляют ли запуск нескольких машин параллельно преимущества для обработки больших контекстов или более быстрого инференса в локальных больших языковых моделях. Хотя отдельные машины могут обрабатывать большие контексты при достаточном объеме ОЗУ, не существует установленного прогресса, позволяющего получить значительные вычислительные преимущества от распределения инференса между несколькими машинами для локальных больших языковых моделей.

media r/LocalLLaMA · 9 д назад

Еще ли квантованные модели генерации изображений находятся в стадии разработки?

Пользователи отмечают непостоянные результаты при использовании квантованных моделей для генерации изображений, при этом SD 1.5 работает хорошо, а SDXL — нет. Несмотря на успешное преобразование и квантование с помощью инструментов, таких как convert.py и llama-quantize, некоторые пользователи получают плохие результаты, в то время как другие — нет, что вызывает вопросы относительно текущего состояния и надежности технологии квантованной генерации изображений.

media r/LocalLLaMA · 9 д назад

Nex2 mini Phase Twin 16 ГБ, модель 30B выпущена

Модель Nex2 mini Phase Twin с 30 миллиардами параметров и объемом памяти 16 ГБ теперь доступна для пользователей Intel, в частности для линейки A770. Она работает со скоростью 89 токенов в секунду на одной карте A770 и оптимизирована для использования соответствующего ядра в зависимости от оборудования, обеспечивая повышенную производительность при использовании двух карт.

media r/LocalLLaMA · 9 д назад

DGX Spark подвергается несправедливой критике

DGX Spark подвергается несправедливой критике, несмотря на то, что он обладает сильной масштабируемостью и приемлемой локальной производительностью ИИ. Технология ConnectX позволяет бесперебойное расширение, и при мощности 240 Вт он позволяет запускать локальную работу agentic DS4Flash за около 9 тысяч долларов с 256 ГБ CUDA-памяти.