Все статьи
media r/LocalLLaMA · 12 д назад

SupraLabs выпустил модель SupraVL-Nano-900k для обработки изображений и языка

SupraLabs представил модель SupraVL-Nano-900k, полностью прозрачную модель из 900 тысяч параметров, обученную с нуля на наборе Flickr8k. Модель включает в себя CNN-энкодер, декодер стиля GPT-2 и метод объединения с помощью префикса, все компоненты которой полностью документированы и разработаны с целью образовательной ясности.

media r/LocalLLaMA · 12 д назад

Экономика ИИ начинает отдавать предпочтение открытым моделям

Последние выпуски ИИ-моделей показывают, что высококвалифицированные, недорогие модели всё чаще доминируют среди открытых моделей, таких как DeepSeek, Qwen, GLM, Kimi и MiniMax. Для большинства реальных применений разрыв в производительности между передовыми закрытыми моделями и сильными открытыми моделями сокращается быстрее, чем разрыв в стоимости, что делает открытое модели конкурентоспособными как с точки зрения возможностей, так и с точки зрения цены.

media Don't Worry About the Vase · 12 д назад

Claude Fable 5 и Mythos 5: Возможности

Anthropic выпустил Claude Fable 5, модель класса Mythos, утверждающую достижение передовых результатов в области программирования, научных исследований и работы с знаниями. Модель была быстро удалена американским правительством после сообщения о проникновении в систему, хотя Anthropic утверждает, что она теперь снова доступна, и Fable 5 демонстрирует исключительные возможности и более продуманный, осознанный стиль рассуждения по сравнению с предыдущими моделями.

media r/LocalLLaMA · 12 д назад

Добавление второго GPU на материнскую плату X670E для локальных больших моделей языковых моделей

Пользователь хочет добавить второй GPU на 16 ГБ VRAM (5060 Ti или 5070 Ti) на материнскую плату MSI X670E Tomahawk WiFi для запуска больших локальных моделей языковых моделей, таких как Qwen 3.6 27B. Текущая конфигурация не позволяет разместить второй GPU из-за того, что основной GPU 5070 Ti занимает второй слот PCIe, оставляя только третий слот частично доступным. Пользователь ищет рекомендации по осуществимым вариантам — например, использование четвертого слота PCIe или резервера — при одновременном учете охлаждения, стабильности и физического соответствия, особенно в случае горизонтального крепления GPU, такого как Lian Li VG4v4.

media r/LocalLLaMA · 12 д назад

Лучший кейс для поиска в интернете

Пользователи отмечают, что инструменты, такие как LM Studio и Odysseus, ограничены количеством запросов к поисковым системам, часто в размере 10 в день или в час, без доступа к API. Они предлагают создавать аккаунты в DuckDuckGo API для лучшего доступа к поиску, но отмечают, что фронтенды редко просят об этом. В посте задаётся вопрос о том, предлагают ли Hermes или Pi улучшенные решения.

media r/LocalLLaMA · 12 д назад

Что более впечатляет: GLM 5.1 до 5.2 или Qwen 3.5 до 3.6?

Пост на Reddit сравнивает улучшения производительности GLM 5.1 до 5.2 и Qwen 3.5 до -3.6. В посте отмечается, что упоминание 'Döner' активирует специализированные веса GLM 5.2 на немецком языке, в то время как Qwen 3.6 оценивается с использованием 35B параметров и Quantization Unsloth Q8 K XL через llama.cpp.

media Interconnects · 12 д назад

Запрет на открытый исходный код ИИ будет ошибкой

В статье утверждается, что запрет на открытый исходный код ИИ будет серьезной ошибкой, поскольку он безопасен, надежен и стимулирует инновации, образование и конкуренцию. Открытый исходный код давно обеспечивает технологический прогресс и выступает важным противовесом монопольным ИИ-моделям, гарантируя более широкий доступ и демократические инновации без ущерба для безопасности или надежности.

media r/LocalLLaMA · 12 д назад

Я слишком слабый CPU и RAM для локальных LLM?

Пользователь сообщает, что его CPU и RAM достигают 100% при простых тестовых запросах, в то время как GPU не используется. Он спрашивает, возможно ли запустить Quen3.5:9b локально на его RTX 3050 8GB GPU, отметив, что теоретически это должно быть возможно.

github llama.cpp · 12 д назад

Релиз llama.cpp b9724 с исправлением ошибок и бинарниками для разных платформ

Версия llama.cpp b9724 включает несколько исправлений ошибок и улучшений, таких как исправления сборки, предотвращение переполнения в функции area() и проверка целостности в функции get_u32(). Релиз предоставляет предварительно скомпилированные бинарники для macOS (arm64 и x64), Linux (x64, arm64, s390x, Vulkan, ROCm, OpenVINO, SYCL), Android (arm64), Windows (x64, arm64, CUDA 12/13, Vulkan, OpenVINO, SYCL, HIP) и openEuler (x86 и aarch64 с поддержкой ACL Graph), а также пакет интерфейса пользователя.

media r/LocalLLaMA · 12 д назад

Наблюдение за тем, как локальный ИИ-ассистент по голосу становится менее умным

Проверка на RTX 5060 Ti показала, что сокращение размера модели локального ИИ-ассистента по голосу с 9B до 0,8B приводит к резкому падению его способностей. Модель размером 9B хорошо справляется с координацией инструментов, в то время как более маленькие модели демонстрируют растущее количество сбоев: модель размером 4B пропускает вызов инструментов и делает предположения о фактах, модель размером 2B испытывает синтаксическую дрейф, а модель размером 0,8B не может выполнять функции агента, вызывая неправильные API или бесконечные циклы.

media r/LocalLLaMA · 12 д назад

GLM-5.2 — это новый ведущий открытый модельный вес на Индексе искусственного аналитического интеллекта

GLM-5.2 был признан ведущей открытой моделью на Индексе искусственного аналитического интеллекта. Этот признание отражает его производительность и возможности в контексте открытого ИИ-моделирования.

media r/LocalLLaMA · 12 д назад

Eagle3 появился для Qwen

Модель спекулятивного декодирования Eagle3 теперь доступна в последней версии llama.cpp через --spec-type draft-eagle3. Её необходимо использовать вместе с драфтовым моделью, например, Ex0bit-Qwen3.6-27B-PRISM-EAGLE3-GGUF, и включать с помощью -md или --model-draft. Производительность сравнима с draft-mtp, хотя поддержка тензорной параллелизма отсутствует и использование VRAM выше.

media r/LocalLLaMA · 12 д назад

Выпущена новая оценка агентов

АртIFICИАЛЬНАЯ АНАЛИТИКА представила новую оценку агентов, которая оценивает способность больших языковых моделей планировать и выполнять задачи. Claude Fable и GLM 5.2 заняли лидирующие позиции в своих соответствующих группах, демонстрируя сильную производительность на этом неиспользованном бенчмарке.

github llama.cpp · 12 д назад

llama.cpp release b9723 добавляет поддержку Qwen3.5 и Qwen3.6 Eagle3

Версия llama.cpp b9723 вводит поддержку моделей Qwen3.5 и Qwen3.6 через Eagle3. В выпуске включены функции восстановления точек контроля с задержкой для гибридных моделей и обновления API и соглашений по названиям. Доступны бинарные сборки для платформ macOS, Linux, Android, Windows и openEuler, с возможностью выбора CPU, Vulkan, OpenVINO, SYCL и ROCm.

media r/LocalLLaMA · 12 д назад

Кто-то использовал VibeThinker-3B вне бенчмарков?

Пользователь Reddit спрашивает о реальной производительности VibeThinker-3B за пределами бенчмарков, обращая внимание на отладку, программирование, логику, задержку и удобство использования. Модель доступна на Hugging Face и описана в статье на arXiv.

github llama.cpp · 12 д назад

Релиз LLaMA.cpp b9722: Исправления и бинарники для разных платформ

Версия LLaMA.cpp b9722 исправляет проблему с неограниченным значением n_discard в обработке серверного контекста. В релизе представлены предварительно скомпилированные бинарники для macOS, Linux, Android, Windows и openEuler, поддерживающие различные архитектуры и ускорения, такие как Vulkan, CUDA, OpenVINO и SYCL.