Все статьи
media r/LocalLLaMA · 12 д назад

SupraLabs выпустил модель SupraVL-Nano-900k для обработки изображений и языка

SupraLabs представил модель SupraVL-Nano-900k, полностью прозрачную модель из 900 тысяч параметров, обученную с нуля на наборе Flickr8k. Модель включает в себя CNN-энкодер, декодер стиля GPT-2 и метод объединения с помощью префикса, все компоненты которой полностью документированы и разработаны с целью образовательной ясности.

media r/LocalLLaMA · 12 д назад

Устранение проблемы с длительными контекстами при декодировании на Radeon R9700 с использованием vLLM 0.22.1

Проблема с производительностью при длительных контекстах на AMD Radeon AI PRO R9700 (RDNA4) была решена в vLLM 0.22.1 путем включения AITER Unified Attention. Исправление включает ослабление гейта CDNA для включения RDNA4, отключение других реализаций внимания и использование KV-кэша в формате bf16, что обеспечивает значительное ускорение при всех длинах контекста. Использование FP8 на этом оборудовании неэффективно, а нативный контекст модели в размере 262K полностью достижим при использовании bf16, обеспечивая ~2.9× параллелизм без необходимости использования FP8.

media r/LocalLLaMA · 12 д назад

Как настроить поиск с помощью моделей ИИ

Пользователь спрашивает, как интегрировать модель Gemma 4 12B с возможностями поиска, используя самовыполняемые ИИ-модели. Он упоминает попытки использования openwebui, который имеет проблемы с поисковыми системами, такими как DDG, и ищет альтернативы, избегающие использования ключей API от Brave или Google.

github llama.cpp · 12 д назад

Релиз LLaMA.cpp b9728 добавляет поддержку строк комментариев и бинарные файлы для нескольких платформ

Версия LLaMA.cpp b9728 вводит поддержку строк комментариев в конфигурации --api-key-file. В релизе представлены предварительно скомпилированные бинарные файлы для macOS, Linux, Android, Windows и openEuler на нескольких архитектурах и вариантах аппаратного ускорения, включая Vulkan, CUDA, OpenVINO и SYCL.

media r/LocalLLaMA · 12 д назад

Можно ли использовать SSD для расширения памяти без SWAP на Mac Mini m4?

Пользователь спрашивает, можно ли использовать SSD для расширения памяти при запуске больших моделей ИИ на Mac Mini с процессором M4 и 24 ГБ единых средств памяти. Они отмечают, что хотя GPT-120B запускается успешно, он занимает 50 ГБ объема SWAP, и SSD на 330 ГБ почти не используется для KV-слотов и файлов GGUF, несмотря на ожидание, что mmap позволит расширять память SSD.

media r/LocalLLaMA · 12 д назад

Комиссия выбирает консорциум EUROPA в качестве победителя конкурса Frontier AI Grande Challenge

Европейская комиссия выбрала консорциум EUROPA, возглавляемый Domyn, для разработки открытого фронтового ИИ-модели на всех 24 языках ЕС. Проект, запущенный в феврале 2026 года, направлен на создание модели с более чем 400 миллиардами параметров, демонстрирующей способность Европы строить передовые ИИ-системы на собственной инфраструктуре.

media r/LocalLLaMA · 12 д назад

Улучшение локальных моделей с помощью агента-консультанта на основе API

Пользователь спрашивает, может ли добавление мощного агента-консультанта на основе API, такого как GLM 5.2, улучшить локальные рабочие процессы, оптимизируя планы и процессы обучения. В посте рассматриваются потенциальные преимущества такого агента в улучшении производительности локальных моделей за счёт внешнего консультирования.

github llama.cpp · 12 д назад

llama.cpp release b9726 добавляет аргумент --agent и новые бинарники для платформ

Версия llama.cpp b9726 вводит новый аргумент --agent и удаляет избыточную совместимость названий webui. В релизе представлены предварительно скомпилированные бинарники для macOS, Linux, Android, Windows и openEuler на нескольких архитектурах и вариантах ускорения аппаратного обеспечения.

media r/LocalLLaMA · 12 д назад

Экономика ИИ начинает отдавать предпочтение открытым моделям

Последние выпуски ИИ-моделей показывают, что высококвалифицированные, недорогие модели всё чаще доминируют среди открытых моделей, таких как DeepSeek, Qwen, GLM, Kimi и MiniMax. Для большинства реальных применений разрыв в производительности между передовыми закрытыми моделями и сильными открытыми моделями сокращается быстрее, чем разрыв в стоимости, что делает открытое модели конкурентоспособными как с точки зрения возможностей, так и с точки зрения цены.

media Don't Worry About the Vase · 12 д назад

Claude Fable 5 и Mythos 5: Возможности

Anthropic выпустил Claude Fable 5, модель класса Mythos, утверждающую достижение передовых результатов в области программирования, научных исследований и работы с знаниями. Модель была быстро удалена американским правительством после сообщения о проникновении в систему, хотя Anthropic утверждает, что она теперь снова доступна, и Fable 5 демонстрирует исключительные возможности и более продуманный, осознанный стиль рассуждения по сравнению с предыдущими моделями.

media r/LocalLLaMA · 12 д назад

Добавление второго GPU на материнскую плату X670E для локальных больших моделей языковых моделей

Пользователь хочет добавить второй GPU на 16 ГБ VRAM (5060 Ti или 5070 Ti) на материнскую плату MSI X670E Tomahawk WiFi для запуска больших локальных моделей языковых моделей, таких как Qwen 3.6 27B. Текущая конфигурация не позволяет разместить второй GPU из-за того, что основной GPU 5070 Ti занимает второй слот PCIe, оставляя только третий слот частично доступным. Пользователь ищет рекомендации по осуществимым вариантам — например, использование четвертого слота PCIe или резервера — при одновременном учете охлаждения, стабильности и физического соответствия, особенно в случае горизонтального крепления GPU, такого как Lian Li VG4v4.

media r/LocalLLaMA · 12 д назад

Лучший кейс для поиска в интернете

Пользователи отмечают, что инструменты, такие как LM Studio и Odysseus, ограничены количеством запросов к поисковым системам, часто в размере 10 в день или в час, без доступа к API. Они предлагают создавать аккаунты в DuckDuckGo API для лучшего доступа к поиску, но отмечают, что фронтенды редко просят об этом. В посте задаётся вопрос о том, предлагают ли Hermes или Pi улучшенные решения.

media r/LocalLLaMA · 12 д назад

Что более впечатляет: GLM 5.1 до 5.2 или Qwen 3.5 до 3.6?

Пост на Reddit сравнивает улучшения производительности GLM 5.1 до 5.2 и Qwen 3.5 до -3.6. В посте отмечается, что упоминание 'Döner' активирует специализированные веса GLM 5.2 на немецком языке, в то время как Qwen 3.6 оценивается с использованием 35B параметров и Quantization Unsloth Q8 K XL через llama.cpp.

media Interconnects · 12 д назад

Запрет на открытый исходный код ИИ будет ошибкой

В статье утверждается, что запрет на открытый исходный код ИИ будет серьезной ошибкой, поскольку он безопасен, надежен и стимулирует инновации, образование и конкуренцию. Открытый исходный код давно обеспечивает технологический прогресс и выступает важным противовесом монопольным ИИ-моделям, гарантируя более широкий доступ и демократические инновации без ущерба для безопасности или надежности.

media r/LocalLLaMA · 12 д назад

Я слишком слабый CPU и RAM для локальных LLM?

Пользователь сообщает, что его CPU и RAM достигают 100% при простых тестовых запросах, в то время как GPU не используется. Он спрашивает, возможно ли запустить Quen3.5:9b локально на его RTX 3050 8GB GPU, отметив, что теоретически это должно быть возможно.