Все статьи
github llama.cpp · 9 д назад

llama.cpp Release b9753: New Binaries and Progress Reporting

llama.cpp версия b9753 вводит улучшенную отчетность о прогрессе при загрузке спецификационных моделей, включая новый список "stages". В выпуске представлены бинарники для macOS, Linux, Android, Windows и openEuler на нескольких архитектурах и вариантах ускорения аппаратного обеспечения, таких как Vulkan, CUDA, OpenVINO и SYCL.

github llama.cpp · 9 д назад

llama.cpp release b9754: новый парсер AC и бинарники для разных платформ

Версия llama.cpp b9754 вводит парсер AC для строгого формирования грамматики в модуле common/peg. В релизе представлены предварительно скомпилированные бинарники для macOS, Linux, Android, Windows и openEuler, поддерживающие различные архитектуры и технологии ускорения, такие как Vulkan, CUDA, OpenVINO и SYCL.

media r/LocalLLaMA · 9 д назад

Сравнение моделей Gemma 4 31B Q6 и Gemma 4 31B QAT

Обсуждение на Reddit сравнивает модели Gemma 4 31B Q6 и Gemma 4 31-31B QAT, фокусируясь на производительности при выполнении задач креативного написания. Пользователи ищут рекомендации по выбору варианта с лучшими результатами, задавая вопросы о KLD (Kullback-Leibler Divergence) как метрике качества модели.

media r/LocalLLaMA · 10 д назад

Сравнение локальных моделей текст-к-изображению: окончательное испытание

Испытание оценивало 192 запроса на локальных моделях текст-к-изображению на GX10 Spark, оценивая такие способности, как понимание текста, генерация лиц и пространственное составление. Результаты доступны на ImageBench, с сравнениями с передовыми API, использующими визуальные языковые модели, и все запросы и изображения доступны в открытом доступе.

media r/LocalLLaMA · 10 д назад

Работающий процесс для программистов с медленной локальной настройкой LLM

Пользователи делятся своими рабочими процессами при использовании локальных LLM при генерации токенов ниже 10 токенов в секунду. Общие стратегии включают использование кратких промптов, использование локальных моделей с минимальным контекстом и группировку запросов для максимизации эффективности.

media r/LocalLLaMA · 10 д назад

Ваш любимый рабочий процесс преобразования PDF с сложной структурой в Markdown?

Пользователь спрашивает о инструментах для преобразования PDF с сложной структурой, такой как таблицы и плавающие элементы, в Markdown. Они уже пробовали markitdown, Docling и Mineru, и ищут рекомендации по лучшим альтернативам.

media r/LocalLLaMA · 10 д назад

Рекомендации по настройке Python-проекта веб-приложения

Пользователь ищет рекомендации по стеку программного обеспечения для создания проекта веб-приложения на Python в PyCharm с использованием локальных LLM. Он стремится использовать системы агентов, способные генерировать планы, выполнять код и проводить тестирование, при текущем опыте использования моделей GPT-OSS и Qwen, демонстрирующих различия в производительности и качестве.

media r/LocalLLaMA · 10 д назад

Наконец-то видим выгоды MTP после удаления GGML_CUDA_ALLREDUCE

Пользователь сообщил, что удаление переменной окружения GGML_CUDA_ALLREDUCE привело к заметному улучшению пропускной способности (TPS) для MTP в локальной инференсе больших языковых моделей. Изменение, ранее считавшееся полезным, неожиданно снизило перегрузку и улучшило производительность, особенно после длительных испытаний конфигурации.

media r/LocalLLaMA · 10 д назад

Агент Hermes выглядит ужасно и имеет плохое взаимодействие с пользователем

Пользователь выражает разочарование в веб-интерфейсе агента Hermes, указывая на ужасные шрифты, графику и медленное взаимодействие как в веб-интерфейсе, так и в терминале. Несмотря на обещания встроенных функций и простоты использования, пользователь находит его значительно медленнее и менее интуитивным, чем агент Pi Mono, особенно при использовании моделей Qwen3.6-35B и Gemma4-26B.

media r/LocalLLaMA · 10 д назад

Таблица результатов для квантованных моделей, подобных анализу искусственного интеллекта?

Таблица результатов моделей анализа искусственного интеллекта помогает сравнивать интеллект моделей, но игнорирует эффекты квантования для открытых моделей. Пользователи спрашивают, есть ли лучший способ сравнения квантованных открытых моделей с проприетарными, не запуская их напрямую.

media r/LocalLLaMA · 10 д назад

Не новый модель, просто праздник отца и благодарность

Пользователь Reddit выражает благодарность сообществу LocalLLaMA, указывая, что пост не касается новой модели, а является личной благодарностью. Как отец, он подчёркивает ценность сообщества как убежища в жизни семьи, признавая ценность обмена опытом по настройке, оборудованию и настройке моделей.

media r/LocalLLaMA · 10 д назад

Оптимизация инференса локальных моделей языковой модели: полное руководство

Полное руководство по оптимизации инференса локальных моделей языковой модели охватывает управление VRAM, кэшем ключ-значение, размещением MoE, MTP, настройкой CPU и распространёнными проблемами нехватки памяти. Руководство доступно по ссылке https://carteakey.dev/blog/local-inference/local-llm-optimization/ и включает запросы обратной связи от автора.

media r/LocalLLaMA · 10 д назад

Выпущена версия GLM-5.2 на бенчмарке DeepSWE

GLM-5.2 была оценена на бенчмарке DeepSWE, с показателями, отмеченными в правом верхнем углу визуализации. В посте отмечается, что баллы уменьшаются с ростом цены, и указывается на сайт DeepSWE и ArtificialAnalysis для альтернативных оценок, при этом рассматриваются критические замечания и исторический контекст относительно действительности бенчмарка.

lab OpenAI News · 10 д назад

Самсунг внедряет ChatGPT и Codex для сотрудников

Компания Samsung Electronics внедрила в свою глобальную команду Enterprise-версию ChatGPT от OpenAI и Codex. Такое внедрение является одним из крупнейших предприятий по внедрению искусственного интеллекта от OpenAI на сегодняшний день.

blog Simon Willison · 10 д назад

Cloudflare запускает временные аккаунты для ИИ-агентов

Cloudflare теперь позволяет пользователям развертывать приложения Workers без постоянного аккаунта с помощью команды npx wrangler deploy --temporary. Каждое развертывание работает в временной проекте, который остается активным в течение 60 минут, и ссылка на подтверждение истекает менее чем через час, если владение не подтверждено.

blog Simon Willison · 10 д назад

sqlite-utils 4.0rc1 добавляет миграции и вложенные транзакции

sqlite-utils 4.0rc1 вводит миграции баз данных и db.atomic() для вложенных транзакций. Поддержка миграций позволяет выполнять схематические изменения с помощью скриптов с использованием упрощенного API, в то время как db.atomic() обеспечивает вложенные транзакции через точки сохранения, улучшая обработку ошибок и целостность данных. В выпуске присутствуют несовместимые с предыдущими версиями изменения, такие как обновленное поведение upsert и удаление поддержки Python 3.8, с возможностью сохранения более старых режимов работы.

media r/LocalLLaMA · 10 д назад

Qwen 27B для планирования, Qwen 35B-A3B для выполнения

Пользователь исследует использование Qwen 27B для планирования долгосрочных задач и Qwen 35B-A3-Б для быстрого выполнения, отмечая, что 27B работает со скоростью 7-10 токенов в секунду, а 35B-A3B — около 18 токенов в секунду. Пользователь рассматривает переключение между моделями для использования их различных преимуществ, хотя в настоящее время использует 35B-A3B исключительно и задаётся вопросом о значимости интеллектуального разрыва между моделями.

github llama.cpp · 10 д назад

llama.cpp release b9750: новая инструкция вызова и бинарники для разных платформ

Версия llama.cpp b9750 вводит реализацию инструкции вызова и откатывает нежелательное изменение. В релизе представлены предварительно скомпилированные бинарники для macOS, Linux, Android, Windows и openEuler на разных архитектурах и вариантах ускорения, включая Vulkan, CUDA, OpenVINO и SYCL.