Все статьи — korshunov.ai

Все статьи Страница 1 / 130

llama.cpp Release b9753: New Binaries and Progress Reporting

llama.cpp версия b9753 вводит улучшенную отчетность о прогрессе при загрузке спецификационных моделей, включая новый список "stages". В выпуске представлены бинарники для macOS, Linux, Android, Windows и openEuler на нескольких архитектурах и вариантах ускорения аппаратного обеспечения, таких как Vulkan, CUDA, OpenVINO и SYCL.

github llama.cpp · 9 д назад

llama.cpp release b9754: новый парсер AC и бинарники для разных платформ

Версия llama.cpp b9754 вводит парсер AC для строгого формирования грамматики в модуле common/peg. В релизе представлены предварительно скомпилированные бинарники для macOS, Linux, Android, Windows и openEuler, поддерживающие различные архитектуры и технологии ускорения, такие как Vulkan, CUDA, OpenVINO и SYCL.

github llama.cpp · 9 д назад

Добавить зависимость libandroid-spawn для сборки Android

Документация по сборке Android была обновлена с добавлением зависимости от libandroid-spawn. Данное изменение направлено на поддержку процесса сборки в указанной среде.

media r/LocalLLaMA · 9 д назад

Сравнение моделей Gemma 4 31B Q6 и Gemma 4 31B QAT

Обсуждение на Reddit сравнивает модели Gemma 4 31B Q6 и Gemma 4 31-31B QAT, фокусируясь на производительности при выполнении задач креативного написания. Пользователи ищут рекомендации по выбору варианта с лучшими результатами, задавая вопросы о KLD (Kullback-Leibler Divergence) как метрике качества модели.

media r/LocalLLaMA · 10 д назад

Сравнение локальных моделей текст-к-изображению: окончательное испытание

Испытание оценивало 192 запроса на локальных моделях текст-к-изображению на GX10 Spark, оценивая такие способности, как понимание текста, генерация лиц и пространственное составление. Результаты доступны на ImageBench, с сравнениями с передовыми API, использующими визуальные языковые модели, и все запросы и изображения доступны в открытом доступе.

media r/LocalLLaMA · 10 д назад

Работающий процесс для программистов с медленной локальной настройкой LLM

Пользователи делятся своими рабочими процессами при использовании локальных LLM при генерации токенов ниже 10 токенов в секунду. Общие стратегии включают использование кратких промптов, использование локальных моделей с минимальным контекстом и группировку запросов для максимизации эффективности.

media r/LocalLLaMA · 10 д назад

Ваш любимый рабочий процесс преобразования PDF с сложной структурой в Markdown?

Пользователь спрашивает о инструментах для преобразования PDF с сложной структурой, такой как таблицы и плавающие элементы, в Markdown. Они уже пробовали markitdown, Docling и Mineru, и ищут рекомендации по лучшим альтернативам.

media r/LocalLLaMA · 10 д назад

Наконец-то видим выгоды MTP после удаления GGML_CUDA_ALLREDUCE

Пользователь сообщил, что удаление переменной окружения GGML_CUDA_ALLREDUCE привело к заметному улучшению пропускной способности (TPS) для MTP в локальной инференсе больших языковых моделей. Изменение, ранее считавшееся полезным, неожиданно снизило перегрузку и улучшило производительность, особенно после длительных испытаний конфигурации.

media r/LocalLLaMA · 10 д назад

Агент Hermes выглядит ужасно и имеет плохое взаимодействие с пользователем

Пользователь выражает разочарование в веб-интерфейсе агента Hermes, указывая на ужасные шрифты, графику и медленное взаимодействие как в веб-интерфейсе, так и в терминале. Несмотря на обещания встроенных функций и простоты использования, пользователь находит его значительно медленнее и менее интуитивным, чем агент Pi Mono, особенно при использовании моделей Qwen3.6-35B и Gemma4-26B.

media r/LocalLLaMA · 10 д назад

Таблица результатов для квантованных моделей, подобных анализу искусственного интеллекта?

Таблица результатов моделей анализа искусственного интеллекта помогает сравнивать интеллект моделей, но игнорирует эффекты квантования для открытых моделей. Пользователи спрашивают, есть ли лучший способ сравнения квантованных открытых моделей с проприетарными, не запуская их напрямую.

media r/LocalLLaMA · 10 д назад

Не новый модель, просто праздник отца и благодарность

Пользователь Reddit выражает благодарность сообществу LocalLLaMA, указывая, что пост не касается новой модели, а является личной благодарностью. Как отец, он подчёркивает ценность сообщества как убежища в жизни семьи, признавая ценность обмена опытом по настройке, оборудованию и настройке моделей.

media r/LocalLLaMA · 10 д назад

Оптимизация инференса локальных моделей языковой модели: полное руководство

Полное руководство по оптимизации инференса локальных моделей языковой модели охватывает управление VRAM, кэшем ключ-значение, размещением MoE, MTP, настройкой CPU и распространёнными проблемами нехватки памяти. Руководство доступно по ссылке https://carteakey.dev/blog/local-inference/local-llm-optimization/ и включает запросы обратной связи от автора.

media r/LocalLLaMA · 10 д назад

Выпущена версия GLM-5.2 на бенчмарке DeepSWE

GLM-5.2 была оценена на бенчмарке DeepSWE, с показателями, отмеченными в правом верхнем углу визуализации. В посте отмечается, что баллы уменьшаются с ростом цены, и указывается на сайт DeepSWE и ArtificialAnalysis для альтернативных оценок, при этом рассматриваются критические замечания и исторический контекст относительно действительности бенчмарка.

lab OpenAI News · 10 д назад

Самсунг внедряет ChatGPT и Codex для сотрудников

Компания Samsung Electronics внедрила в свою глобальную команду Enterprise-версию ChatGPT от OpenAI и Codex. Такое внедрение является одним из крупнейших предприятий по внедрению искусственного интеллекта от OpenAI на сегодняшний день.

blog Simon Willison · 10 д назад

Cloudflare запускает временные аккаунты для ИИ-агентов

Cloudflare теперь позволяет пользователям развертывать приложения Workers без постоянного аккаунта с помощью команды npx wrangler deploy --temporary. Каждое развертывание работает в временной проекте, который остается активным в течение 60 минут, и ссылка на подтверждение истекает менее чем через час, если владение не подтверждено.

blog Simon Willison · 10 д назад

Релиз sqlite-utils 4.0rc1

sqlite-utils 4.0rc1 вводит поддержку миграций и вложенных транзакций. Релиз описан на блоге Симона Виллиса.

blog Simon Willison · 10 д назад

sqlite-utils 4.0rc1 добавляет миграции и вложенные транзакции

sqlite-utils 4.0rc1 вводит миграции баз данных и db.atomic() для вложенных транзакций. Поддержка миграций позволяет выполнять схематические изменения с помощью скриптов с использованием упрощенного API, в то время как db.atomic() обеспечивает вложенные транзакции через точки сохранения, улучшая обработку ошибок и целостность данных. В выпуске присутствуют несовместимые с предыдущими версиями изменения, такие как обновленное поведение upsert и удаление поддержки Python 3.8, с возможностью сохранения более старых режимов работы.

media r/LocalLLaMA · 10 д назад

Qwen 27B для планирования, Qwen 35B-A3B для выполнения

Пользователь исследует использование Qwen 27B для планирования долгосрочных задач и Qwen 35B-A3-Б для быстрого выполнения, отмечая, что 27B работает со скоростью 7-10 токенов в секунду, а 35B-A3B — около 18 токенов в секунду. Пользователь рассматривает переключение между моделями для использования их различных преимуществ, хотя в настоящее время использует 35B-A3B исключительно и задаётся вопросом о значимости интеллектуального разрыва между моделями.

github llama.cpp · 10 д назад

llama.cpp release b9750: новая инструкция вызова и бинарники для разных платформ

Версия llama.cpp b9750 вводит реализацию инструкции вызова и откатывает нежелательное изменение. В релизе представлены предварительно скомпилированные бинарники для macOS, Linux, Android, Windows и openEuler на разных архитектурах и вариантах ускорения, включая Vulkan, CUDA, OpenVINO и SYCL.

llama.cpp Release b9753: New Binaries and Progress Reporting

llama.cpp release b9754: новый парсер AC и бинарники для разных платформ

Добавить зависимость libandroid-spawn для сборки Android

Сравнение моделей Gemma 4 31B Q6 и Gemma 4 31B QAT

Сравнение локальных моделей текст-к-изображению: окончательное испытание

Работающий процесс для программистов с медленной локальной настройкой LLM

Ваш любимый рабочий процесс преобразования PDF с сложной структурой в Markdown?

Рекомендации по настройке Python-проекта веб-приложения

Наконец-то видим выгоды MTP после удаления GGML_CUDA_ALLREDUCE

Агент Hermes выглядит ужасно и имеет плохое взаимодействие с пользователем

Таблица результатов для квантованных моделей, подобных анализу искусственного интеллекта?

Не новый модель, просто праздник отца и благодарность

Оптимизация инференса локальных моделей языковой модели: полное руководство

Выпущена версия GLM-5.2 на бенчмарке DeepSWE

Самсунг внедряет ChatGPT и Codex для сотрудников

Cloudflare запускает временные аккаунты для ИИ-агентов

Релиз sqlite-utils 4.0rc1

sqlite-utils 4.0rc1 добавляет миграции и вложенные транзакции

Qwen 27B для планирования, Qwen 35B-A3B для выполнения

llama.cpp release b9750: новая инструкция вызова и бинарники для разных платформ