Code generation
media r/LocalLLaMA · 4 д назад

Что делают люди с локальными моделями и какие инструменты они используют?

Пользователь спрашивает о практическом применении локальных моделей и о том, какие инструменты эффективны для задач, таких как программирование, особенно в качестве альтернативы веб-интерфейсам, таким как Claude.ai. Они упоминают попытку использования OpenWebUI, но отмечают, что он недостаточно мощен без значительной настройки.

media r/LocalLLaMA · 4 д назад

Что происходит, когда подписки на LLM перестают поддерживаться?

Поставщики LLM в настоящее время поддерживали дорогостоящее использование API для создания экосистем, планируя повысить цены позже. По мере того, как поддержка уменьшается, пользователи могут столкнуться с резким ростом цен — например, до 2000 долларов в месяц — что сделает доступ к сервису дорогостоящим и угрожает широкому внедрению, особенно для лиц, которые зависят от недорогого оборудования для запуска моделей.

media r/LocalLLaMA · 4 д назад

Расширение Qwen Code Companion теперь открыто для использования

Расширение Qwen Code Companion для VSCode теперь доступно в магазине и открыто для использования по адресу https://github.com/QwenLM/qwen-code. Пользователи отмечают, что оно работает хорошо с моделями, размещёнными в LM Studio, и превосходит другие локальные инструменты для LLM, такие как continue, kilo, cline и roo, при минимальной настройке.

media r/LocalLLaMA · 5 д назад

Сложности с завершением токен-планов Xiaomi Mimo-v2.5-pro до истечения срока

Пользователь имеет 24B токен-кредитов из конкурса токен-плана Xiaomi, стоимостью $50, но полученных бесплатно. Он сообщает о высоком потреблении токенов при использовании, ограниченной поддержке инструментов и теперь обеспокоен тем, что кредиты будут потеряны из-за истечения срока в четыре дня. Модель похвалена за 90% ставку кэша и 99% снижение цены при кэшировании, пользователь отмечает, что она хорошо справляется с задачами по программированию и планированию.

media r/LocalLLaMA · 5 д назад

Глубокая нейронная сеть превращает изображения в игровые сессии локально

Локально работающая глубокая нейронная сеть может превращать любое изображение в игровую сессию, используя небольшую модель, похожую на трансформер, обученную с нуля. Модель, работающая на RTX 5090, генерирует игровые последовательности автокоррекционно с реальным вводом клавиатуры, хотя в настоящее время она страдает от плохой динамики и проблем с контекстом.

media r/LocalLLaMA · 5 д назад

Теперь вы можете конвертировать квантованные модели EXL3 на Mac с процессором Apple Silicon

Пользователи теперь могут конвертировать и запускать квантованные модели EXL3 на Mac с процессором Apple Silicon и объёмом памяти 64 ГБ и более. Проверки показывают, что модели, такие как MiniCPM5 и Qwen3.6-27B, достигают производительности, сравнимой с или немного ниже производительности при конвертации на картах RTX, при этом EXL3 обеспечивает более высокое качество квантования по сравнению с MLX.

media r/LocalLLaMA · 5 д назад

Два документа Word обмениваются содержимым через локальные LLMs — реальные примеры использования?

Прототип демонстрирует, как два документа Word обмениваются содержимым с помощью локальных LLMs, с итеративными взаимодействиями на нескольких шагах. Потенциальные практические примеры включают итеративное взаимодействие чернового документа и критического документа, или совместную работу спецификации и реализации документа, хотя реализуемость таких рабочих процессов остаётся неопределённой.

media r/LocalLLaMA · 5 д назад

Какой из моделей лучше: Qwen3.6-27B@BF16 или Step3.7@IQ4_XS?

Пользователь спрашивает, какой из моделей — Qwen3.6-27B при точности BF16 или Step3.7 с квантованием IQ4_XS — будет принимать более осознанные, автономные решения с меньшей необходимостью в руководстве человека. Вопрос сравнивает плотную модель высокой точности с более крупной моделью на основе MoE при низкой точности, указывая на компромиссы в памяти и производительности.

media r/LocalLLaMA · 5 д назад

Лучший локальный LLM для суммирования английских рассказов

Пользователь спрашивает, какой локальный LLM в настоящее время показывает наилучшие результаты при суммировании длинных английских рассказов. Запрос подчёркивает необходимость точных локальных LLM, способных обрабатывать многостраничные рассказы на английском языке.

github llama.cpp · 5 д назад

Исправление индексатора DSA для GLM-5.2: тензоры помечены как не требуемые

Индексатор DSA для модели GLM-5.2 неправильно загружался на всех слоях, что приводило к сбоям из-за отсутствия тензоров. В обновлении тензоры индексатора помечаются как TENSOR_NOT_REQUIRED, что позволяет слоям без индексатора загружать как nullptr, обеспечивая полную работу внимания MLA. Модель DeepSeek-V3.2, имеющая единое индексирование, не затронута.

media r/LocalLLaMA · 5 д назад

Наилучшие настройки для 48 ГБ ОЗУ с Qwen 3.6 27B

Пользователь делится оптимизированными настройками для запуска Qwen 3.6 27B с квантованием Q8_0 на системе RTX 4090 и RTX 3090 с использованием llama.cpp. Конфигурация включает разбиение тензоров, 999 слоев на GPU, контекст длиной 250k, спекулятивное декодирование и единый кэш КВ, что обеспечивает пропускную способность 75-100t/s с поддержкой визуальных данных и MTP.

media r/LocalLLaMA · 5 д назад

Помощь с локальной системой RAG для документов (хранилище + ввод + запрос + выделение)

Пользователь разрабатывает локальную, оффлайн-систему поиска документов и интеграции с LLM, включающую функции хранения, ввода, запроса и выделения. Он просит советы по выбору векторных баз данных (например, pgvector в Postgres по сравнению с Qdrant), возможности использования GraphRAG в оффлайн-режиме и открытых инструментов для выделения документов с цитатами.

media r/LocalLLaMA · 5 д назад

7900XTX 24GB VRAM Runs Qwen 3.6 27B с 131k Context

Пользователь сообщает о успешном запуске модели Qwen 3.6 27B с квантованием Q6K+MTP и длиной контекста 131k на видеокарте 7900XTX с 24 ГБ VRAM. Это достигается с помощью квантования kvcache (Q5_0/Q4_0), что снижает использование VRAM на 12% по сравнению с Q8, позволяя модели работать со скоростью 55-60 токенов в секунду при использовании специальных флагов компиляции и аргументов llama.cpp.

media r/LocalLLaMA · 5 д назад

GLM 5.2 достигает 98% максимальной интеллекта с менее чем половиной токенов

Согласно техническому отчету z_ai, модель GLM 5.2 демонстрирует 98% максимального интеллекта в задачах программирования, используя менее половины своего общего бюджета токенов. Эффективность логического мышления модели значительно улучшилась: количество токенов увеличилось с 16,7 к до 36,7 к при переходе от GLM 5.1 к GLM 5.2, хотя настройки высокого уровня могут негативно сказаться на производительности локальных аппаратных средств.

media r/LocalLLaMA · 5 д назад

AMD Будущие GPU для развертывания LLM

AMD объявил о новых GPU, которые могут поддерживать локальные развертывания больших языковых моделей (LLM). Эти GPU разработаны с повышенной пропускной способностью памяти и вычислительными возможностями, что делает их подходящими для эффективного выполнения инференса и обучения больших языковых моделей в отдельных локальных системах.

media r/LocalLLaMA · 5 д назад

Локальная ИИ для локальных файлов офиса

Пользователь Reddit спрашивает, какой ИИ-агент лучше всего подходит для обработки локальных файлов офиса, таких как Excel, PDF, Word и JSON. В посте приводятся запросы к пользовательским опыту и реализованным рабочим процессам для таких задач.

media r/LocalLLaMA · 5 д назад

Проблема вызова инструментов в открытом Qwen3.6 27B 8K

Пользователи сообщают, что модель Qwen3.6 27B 8K иногда останавливается при генерации вызова инструмента, особенно когда пользователь отходит. Проблема решается тем, что инструментальный вызов вручную вставляется обратно в промпт, что позволяет модели продолжить выполнение. Вызов инструмента включает bash-функцию для поиска проходящих тестов в кодовой базе.

media r/LocalLLaMA · 5 д назад

Какая лучшая книга для изучения математики в области машинного обучения и глубокого обучения?

Пользователь просит рекомендации по книгам, чтобы сформировать прочную математическую основу для понимания и внесения вклада в области машинного обучения и глубокого обучения, особенно в связи с их интересом к архитектурам искусственного интеллекта и больших языковых моделей. Они признают, что интуитивное понимание ограничено без должной математической подготовки, и ищут структурированные ресурсы, чтобы дополнить свой текущий путь обучения через каналы, такие как 3b1b.

media r/LocalLLaMA · 5 д назад

Локальный агент на 4090 - поиск настроек LM Studio

Пользователь сообщает о медленной генерации токенов при запуске локального агента на видеокарте 4090 с 24 ГБ ОЗУ, несмотря на настройку параметров контекста и батчинга. Он отмечает, что Gemma4 работает быстрее, но генерирует неверные токены, такие как </tool_call>, и ищет рекомендованные настройки и объяснения параметров, таких как top_p и top_k.