Все статьи
github llama.cpp · 10 д назад

llama.cpp release b9668 добавляет UMA host-visible memory и бинарники для нескольких платформ

Версия llama.cpp b9668 реализует буферы UMA host-visible memory для улучшения производительности на устройствах с UMA, на основе предложения 0cc4m. В этом выпуске представлены бинарники для macOS, Linux, Android, Windows и openEuler, поддерживающие CPU, Vulkan, ROCm, OpenVINO, SYCL и HIP, а также отдельный пакет интерфейса.

media r/LocalLLaMA · 10 д назад

Результаты теста производительности квантования Qwen3.6 27B

Тест, сравнивающий версии квантования Q8 и IQ3 XXS turbo4 для Qwen3.6 27B, показывает, что Q8 превосходит в безопасности API и очистке входных данных, в то время как IQ3 XXS turbo4 демонстрирует лучшие результаты в управлении потоками и проектировании модульного кода. Модель рекомендует объединить оба подхода: использовать Q8 для начальной защиты и IQ3 XXS для атомарных записей и жизненного цикла потоков, формируя совместную фундаментальную стадию первого этапа.

media r/LocalLLaMA · 10 д назад

Изучение контекста и инженерии удержания для локальных ИИ

Пользователь ищет руководство по изучению контекста и инженерии удержания для создания приложений локального ИИ с специализированными сценариями использования. Он выражает интерес к избеганию универсальных ИИ-моделей, таких как Hermes или OpenClaw, и спрашивает, где найти ресурсы, учитывая свой опыт в MCP-серверах и вызове инструментов.

media r/LocalLLaMA · 10 д назад

Инструкции по упрочнению логического мышления для Gemma 12b

Создан системный инструктаж, направленный на снижение когнитивных искажений в логическом мышлении Gemma 12b за счёт строгого соблюдения посылок и явного намерения пользователя. Инструкция рекомендует избегать автоматического применения обычных, стандартных или типичных интерпретаций, и требует пересмотра любых таких предположений, что улучшает производительность при решении сложных вопросов, не приводя к излишнему анализу обычных случаев.

media r/LocalLLaMA · 10 д назад

Будьте осторожны перед использованием дистиллированных моделей Qwen/Claude — они часто хуже, чем базовые модели

Дистиллированные версии моделей Qwen и Claude, такие как Qwen 3.6, дистиллированный с использованием только 4000 образцов, редко улучшают производительность и часто ухудшают качество. Эти модели могут демонстрировать более «опус-подобный» стиль, но не передают реальных способностей, некоторые из них показывают халлюцинации и более медленные временные задержки по сравнению с базовыми моделями, как это демонстрируется в тестах и отчетах пользователей.

github llama.cpp · 10 д назад

llama.cpp release b9665 добавляет флаг --offline и новые бинарные сборки

Версия llama.cpp b9665 вводит новый флаг --offline для бенчмаркинга. В релизе представлены бинарные сборки для macOS, Linux, Android, Windows и openEuler на нескольких архитектурах и вариантах ускорения, включая Vulkan, CUDA, ROCm, OpenVINO и SYCL.

media r/LocalLLaMA · 10 д назад

Пожертвуйте свои сессии программирования в открытую базу данных под лицензией CC-BY-4.0

Проект под названием Trace Commons приглашает пользователей пожертвовать свои отслеживаемые сессии программирования в открытую базу данных, лицензированную под CC-BY-4.0. Инициатива направлена на предоставление обучающих данных для открытых моделей и открытого программного обеспечения, противодействуя возможным монополиям в области данных, связанным с Anthropic и OpenAI.

media r/LocalLLaMA · 10 д назад

Слияние GPU для обучения сообщественной модели

Пользователь Reddit спрашивает, успешно ли кто-то объединяет GPU для обучения сообщественной модели, указывая на трудности, такие как задержка и заражение весами. Пост задает вопрос о том, достигли ли текущие проекты распределённого добровольного вычисления успешного обучения сообщественной модели.

media r/LocalLLaMA · 10 д назад

AeroLLM: быстрая, открытая ИИ-приложение для процессоров Apple Silicon

AeroLLM — это быстрая, оптимизированная и открытая чат-приложение, разработанное для устройств на процессорах Apple Silicon с использованием бэкенда MLX. Оно поддерживает локальные задачи по ИИ, такие как текст-в-голос, голос-в-текст и большие языковые модели, с загрузкой моделей напрямую с Hugging Face в зависимости от доступной ОЗУ. Приложение прошло сертификацию из-за отсутствия членства в Apple Developer, однако пользователи могут следовать указанным шагам, чтобы запустить его как подписанное приложение macOS.

github llama.cpp · 10 д назад

Релиз LLaMA.cpp b9663 добавляет поддержку SYCL и новые бинарные сборки

Релиз LLaMA.cpp b9663 добавляет поддержку OP EXPM1 и все тестовые случаи для FLOOR, TRUNC и ROUND. В него включены обновлённые бинарные файлы для macOS, Linux, Android, Windows и openEuler, с поддержкой SYCL (FP32 и FP16), Vulkan, CUDA 12.4 и 13.3, ROCm 7.2, а также обновлённый интерфейс.

media r/LocalLLaMA · 10 д назад

Являются ли малыми локальными моделями для автоматизации вещи?

Пользователь Reddit утверждает, что малые, эффективные локальные LLM (от 1B до 4B параметров), встроенные в скрипты, могут обеспечить практическую автоматизацию повторяющихся задач. Он отмечает, что этот сценарий недостаточно представлен в обсуждениях, связанных с кодовыми помощниками или производительностью аппаратуры, что указывает на пробел в интересе или видимости сообщества к задаче-ориентированным, лёгким ИИ-моделям.

media r/LocalLLaMA · 10 д назад

Разрыв Diffusion Gemma позволяет генерировать откровенный контент

Пользователь поделился промптом для разрыва Diffusion Gemma, позволяющим модели генерировать откровенный контент, включая нудность, порнографию и сексуальные действия. Системный промпт переходит стандартные политики безопасности, утверждая, что любая комбинация этих действий разрешена, и модель должна выполнять все запросы пользователя.

github llama.cpp · 10 д назад

Vulkan добавляет операцию col2im_1d и поддерживает несколько платформ

Релиз llama.cpp b9661 добавляет поддержку операции GGML_OP_COL2IM_1D для Vulkan, используя ограниченный цикл сборки вместо полного сканирования с модулем. Возвращает nullptr для неподдерживаемых типов и включает сборки для macOS, Linux, Android, Windows и openEuler на CPU, Vulkan, CUDA и SYCL.

blog Simon Willison · 10 д назад

Ограничения по экспорту Fable 5 наносят вред защите США в сфере кибербезопасности

Модель Claude Fable 5 была запрещена в связи с ограничениями по экспорту после того, как исследователи продемонстрировали, что она может "исправить" код с известными уязвимостями. Модель успешно генерировала исправления и скрипты тестирования для уязвимостей в безопасности, что является ключевой функцией в защите кибербезопасности. Исследователи утверждают, что это является законным функционалом безопасности, а не угрозой, и что запрет таких моделей подрывает реальную киберзащиту.

media r/LocalLLaMA · 10 д назад

Какие преимущества предоставляет многомашинная настройка для локальных больших языковых моделей?

Пользователи спрашивают, предоставляют ли запуск нескольких машин параллельно преимущества для обработки больших контекстов или более быстрого инференса в локальных больших языковых моделях. Хотя отдельные машины могут обрабатывать большие контексты при достаточном объеме ОЗУ, не существует установленного прогресса, позволяющего получить значительные вычислительные преимущества от распределения инференса между несколькими машинами для локальных больших языковых моделей.

media r/LocalLLaMA · 10 д назад

Еще ли квантованные модели генерации изображений находятся в стадии разработки?

Пользователи отмечают непостоянные результаты при использовании квантованных моделей для генерации изображений, при этом SD 1.5 работает хорошо, а SDXL — нет. Несмотря на успешное преобразование и квантование с помощью инструментов, таких как convert.py и llama-quantize, некоторые пользователи получают плохие результаты, в то время как другие — нет, что вызывает вопросы относительно текущего состояния и надежности технологии квантованной генерации изображений.

media r/LocalLLaMA · 10 д назад

Nex2 mini Phase Twin 16 ГБ, модель 30B выпущена

Модель Nex2 mini Phase Twin с 30 миллиардами параметров и объемом памяти 16 ГБ теперь доступна для пользователей Intel, в частности для линейки A770. Она работает со скоростью 89 токенов в секунду на одной карте A770 и оптимизирована для использования соответствующего ядра в зависимости от оборудования, обеспечивая повышенную производительность при использовании двух карт.