Добавить зависимость libandroid-spawn для сборки Android
Документация по сборке Android была обновлена с добавлением зависимости от libandroid-spawn. Данное изменение направлено на поддержку процесса сборки в указанной среде.
Документация по сборке Android была обновлена с добавлением зависимости от libandroid-spawn. Данное изменение направлено на поддержку процесса сборки в указанной среде.
Обсуждение на Reddit сравнивает модели Gemma 4 31B Q6 и Gemma 4 31-31B QAT, фокусируясь на производительности при выполнении задач креативного написания. Пользователи ищут рекомендации по выбору варианта с лучшими результатами, задавая вопросы о KLD (Kullback-Leibler Divergence) как метрике качества модели.
Испытание оценивало 192 запроса на локальных моделях текст-к-изображению на GX10 Spark, оценивая такие способности, как понимание текста, генерация лиц и пространственное составление. Результаты доступны на ImageBench, с сравнениями с передовыми API, использующими визуальные языковые модели, и все запросы и изображения доступны в открытом доступе.
Пользователи делятся своими рабочими процессами при использовании локальных LLM при генерации токенов ниже 10 токенов в секунду. Общие стратегии включают использование кратких промптов, использование локальных моделей с минимальным контекстом и группировку запросов для максимизации эффективности.
Пользователь спрашивает о инструментах для преобразования PDF с сложной структурой, такой как таблицы и плавающие элементы, в Markdown. Они уже пробовали markitdown, Docling и Mineru, и ищут рекомендации по лучшим альтернативам.
Пользователь ищет рекомендации по стеку программного обеспечения для создания проекта веб-приложения на Python в PyCharm с использованием локальных LLM. Он стремится использовать системы агентов, способные генерировать планы, выполнять код и проводить тестирование, при текущем опыте использования моделей GPT-OSS и Qwen, демонстрирующих различия в производительности и качестве.
Пользователь сообщил, что удаление переменной окружения GGML_CUDA_ALLREDUCE привело к заметному улучшению пропускной способности (TPS) для MTP в локальной инференсе больших языковых моделей. Изменение, ранее считавшееся полезным, неожиданно снизило перегрузку и улучшило производительность, особенно после длительных испытаний конфигурации.
Пользователь выражает разочарование в веб-интерфейсе агента Hermes, указывая на ужасные шрифты, графику и медленное взаимодействие как в веб-интерфейсе, так и в терминале. Несмотря на обещания встроенных функций и простоты использования, пользователь находит его значительно медленнее и менее интуитивным, чем агент Pi Mono, особенно при использовании моделей Qwen3.6-35B и Gemma4-26B.
Таблица результатов моделей анализа искусственного интеллекта помогает сравнивать интеллект моделей, но игнорирует эффекты квантования для открытых моделей. Пользователи спрашивают, есть ли лучший способ сравнения квантованных открытых моделей с проприетарными, не запуская их напрямую.
Пользователь Reddit выражает благодарность сообществу LocalLLaMA, указывая, что пост не касается новой модели, а является личной благодарностью. Как отец, он подчёркивает ценность сообщества как убежища в жизни семьи, признавая ценность обмена опытом по настройке, оборудованию и настройке моделей.
Полное руководство по оптимизации инференса локальных моделей языковой модели охватывает управление VRAM, кэшем ключ-значение, размещением MoE, MTP, настройкой CPU и распространёнными проблемами нехватки памяти. Руководство доступно по ссылке https://carteakey.dev/blog/local-inference/local-llm-optimization/ и включает запросы обратной связи от автора.
GLM-5.2 была оценена на бенчмарке DeepSWE, с показателями, отмеченными в правом верхнем углу визуализации. В посте отмечается, что баллы уменьшаются с ростом цены, и указывается на сайт DeepSWE и ArtificialAnalysis для альтернативных оценок, при этом рассматриваются критические замечания и исторический контекст относительно действительности бенчмарка.
Компания Samsung Electronics внедрила в свою глобальную команду Enterprise-версию ChatGPT от OpenAI и Codex. Такое внедрение является одним из крупнейших предприятий по внедрению искусственного интеллекта от OpenAI на сегодняшний день.
Cloudflare теперь позволяет пользователям развертывать приложения Workers без постоянного аккаунта с помощью команды npx wrangler deploy --temporary. Каждое развертывание работает в временной проекте, который остается активным в течение 60 минут, и ссылка на подтверждение истекает менее чем через час, если владение не подтверждено.
sqlite-utils 4.0rc1 вводит поддержку миграций и вложенных транзакций. Релиз описан на блоге Симона Виллиса.
sqlite-utils 4.0rc1 вводит миграции баз данных и db.atomic() для вложенных транзакций. Поддержка миграций позволяет выполнять схематические изменения с помощью скриптов с использованием упрощенного API, в то время как db.atomic() обеспечивает вложенные транзакции через точки сохранения, улучшая обработку ошибок и целостность данных. В выпуске присутствуют несовместимые с предыдущими версиями изменения, такие как обновленное поведение upsert и удаление поддержки Python 3.8, с возможностью сохранения более старых режимов работы.
Пользователь исследует использование Qwen 27B для планирования долгосрочных задач и Qwen 35B-A3-Б для быстрого выполнения, отмечая, что 27B работает со скоростью 7-10 токенов в секунду, а 35B-A3B — около 18 токенов в секунду. Пользователь рассматривает переключение между моделями для использования их различных преимуществ, хотя в настоящее время использует 35B-A3B исключительно и задаётся вопросом о значимости интеллектуального разрыва между моделями.
Версия llama.cpp b9750 вводит реализацию инструкции вызова и откатывает нежелательное изменение. В релизе представлены предварительно скомпилированные бинарники для macOS, Linux, Android, Windows и openEuler на разных архитектурах и вариантах ускорения, включая Vulkan, CUDA, OpenVINO и SYCL.
Обновленный бенчмарк локальных визуально-языковых моделей оценивает 23 модели по 30 изображениям с 3 тестами каждое, что в сумме составляет 2070 тестов и 60 до 70 часов инференса. Самой эффективной моделью является Qwen3.6 27B (nothink) на Q4 с оценкой 79.6, за ней следует Qwen3.5 4B (nothink) на Q4, а затем Qwen3-VL 8B на Q8. Ключевые выводы включают снижение производительности визуальных моделей при использовании режима мышления, низкую эффективность моделей с архитектурой MoE по сравнению с плотными моделями, а также отсутствие универсального улучшения результатов при квантовании на Q8.
Модель Qwen 3.6 27B была изменена с использованием Apostate для удаления безопасности, что снизило коэффициент отказа с 92% до 7,6%. Данное изменение привело к минимальному влиянию на способности модели, при дивергенции КЛ в 0,120.