Все статьи
media r/LocalLLaMA · 10 д назад

Таблица результатов для квантованных моделей, подобных анализу искусственного интеллекта?

Таблица результатов моделей анализа искусственного интеллекта помогает сравнивать интеллект моделей, но игнорирует эффекты квантования для открытых моделей. Пользователи спрашивают, есть ли лучший способ сравнения квантованных открытых моделей с проприетарными, не запуская их напрямую.

media r/LocalLLaMA · 10 д назад

Не новый модель, просто праздник отца и благодарность

Пользователь Reddit выражает благодарность сообществу LocalLLaMA, указывая, что пост не касается новой модели, а является личной благодарностью. Как отец, он подчёркивает ценность сообщества как убежища в жизни семьи, признавая ценность обмена опытом по настройке, оборудованию и настройке моделей.

media r/LocalLLaMA · 10 д назад

Оптимизация инференса локальных моделей языковой модели: полное руководство

Полное руководство по оптимизации инференса локальных моделей языковой модели охватывает управление VRAM, кэшем ключ-значение, размещением MoE, MTP, настройкой CPU и распространёнными проблемами нехватки памяти. Руководство доступно по ссылке https://carteakey.dev/blog/local-inference/local-llm-optimization/ и включает запросы обратной связи от автора.

media r/LocalLLaMA · 10 д назад

Выпущена версия GLM-5.2 на бенчмарке DeepSWE

GLM-5.2 была оценена на бенчмарке DeepSWE, с показателями, отмеченными в правом верхнем углу визуализации. В посте отмечается, что баллы уменьшаются с ростом цены, и указывается на сайт DeepSWE и ArtificialAnalysis для альтернативных оценок, при этом рассматриваются критические замечания и исторический контекст относительно действительности бенчмарка.

lab OpenAI News · 10 д назад

Самсунг внедряет ChatGPT и Codex для сотрудников

Компания Samsung Electronics внедрила в свою глобальную команду Enterprise-версию ChatGPT от OpenAI и Codex. Такое внедрение является одним из крупнейших предприятий по внедрению искусственного интеллекта от OpenAI на сегодняшний день.

blog Simon Willison · 10 д назад

Cloudflare запускает временные аккаунты для ИИ-агентов

Cloudflare теперь позволяет пользователям развертывать приложения Workers без постоянного аккаунта с помощью команды npx wrangler deploy --temporary. Каждое развертывание работает в временной проекте, который остается активным в течение 60 минут, и ссылка на подтверждение истекает менее чем через час, если владение не подтверждено.

blog Simon Willison · 10 д назад

sqlite-utils 4.0rc1 добавляет миграции и вложенные транзакции

sqlite-utils 4.0rc1 вводит миграции баз данных и db.atomic() для вложенных транзакций. Поддержка миграций позволяет выполнять схематические изменения с помощью скриптов с использованием упрощенного API, в то время как db.atomic() обеспечивает вложенные транзакции через точки сохранения, улучшая обработку ошибок и целостность данных. В выпуске присутствуют несовместимые с предыдущими версиями изменения, такие как обновленное поведение upsert и удаление поддержки Python 3.8, с возможностью сохранения более старых режимов работы.

media r/LocalLLaMA · 11 д назад

Qwen 27B для планирования, Qwen 35B-A3B для выполнения

Пользователь исследует использование Qwen 27B для планирования долгосрочных задач и Qwen 35B-A3-Б для быстрого выполнения, отмечая, что 27B работает со скоростью 7-10 токенов в секунду, а 35B-A3B — около 18 токенов в секунду. Пользователь рассматривает переключение между моделями для использования их различных преимуществ, хотя в настоящее время использует 35B-A3B исключительно и задаётся вопросом о значимости интеллектуального разрыва между моделями.

github llama.cpp · 11 д назад

llama.cpp release b9750: новая инструкция вызова и бинарники для разных платформ

Версия llama.cpp b9750 вводит реализацию инструкции вызова и откатывает нежелательное изменение. В релизе представлены предварительно скомпилированные бинарники для macOS, Linux, Android, Windows и openEuler на разных архитектурах и вариантах ускорения, включая Vulkan, CUDA, OpenVINO и SYCL.

media r/LocalLLaMA · 11 д назад

Результаты и рекомендации по обновленному бенчмарку визуальных моделей

Обновленный бенчмарк локальных визуально-языковых моделей оценивает 23 модели по 30 изображениям с 3 тестами каждое, что в сумме составляет 2070 тестов и 60 до 70 часов инференса. Самой эффективной моделью является Qwen3.6 27B (nothink) на Q4 с оценкой 79.6, за ней следует Qwen3.5 4B (nothink) на Q4, а затем Qwen3-VL 8B на Q8. Ключевые выводы включают снижение производительности визуальных моделей при использовании режима мышления, низкую эффективность моделей с архитектурой MoE по сравнению с плотными моделями, а также отсутствие универсального улучшения результатов при квантовании на Q8.

media r/LocalLLaMA · 11 д назад

Выпущена версия Qwen 3.6 27B с удалением безопасности

Модель Qwen 3.6 27B была изменена с использованием Apostate для удаления безопасности, что снизило коэффициент отказа с 92% до 7,6%. Данное изменение привело к минимальному влиянию на способности модели, при дивергенции КЛ в 0,120.

media r/LocalLLaMA · 11 д назад

Я forkнул ik_llama.cpp и добавил режим --numa mirror

Новый форк ik_llama.cpp добавляет режим --numa mirror, который копирует веса модели и кэш KV между разъемами процессора, обеспечивая полное использование систем с несколькими разъемами. Это снижает штрафы за доступ к удаленной памяти и повышает пропускную способность инференса до 1,6 раза на проверенных моделях, хотя требует вдвое больше ОЗУ.

github llama.cpp · 11 д назад

llama.cpp выпускает версию b9748 с новыми бинарниками и функциями

llama.cpp выпускает версию b9748, добавляя поле "verbose" в свою схему и предоставляя бинарники для macOS, Linux, Android, Windows и openEuler. В релизе включены поддержка CPU, Vulkan, OpenVINO, SYCL и ROCm на нескольких архитектурах, с доступными билдами для iOS и Windows на CUDA и Vulkan.

media r/LocalLLaMA · 11 д назад

Я предобучил и постобучил 500M параметровую модель LLM и 330M параметровую генератор изображений с нуля

Автор предобучил модель языка на 500M параметров и генератор изображений на 330M параметров с нуля, используя 40B токенов из fineweb. Генератор изображений был вдохновлён архитектурой DreamLite от ByteDance и обучался на смеси датасетов из MidJourney, Flux и CCW3.

media r/LocalLLaMA · 11 д назад

Какой ваш локальный аналог Haiku?

Пользователь ищет надежный и быстрый локальный аналог Haiku для суммирования технического содержимого, такого как документация по коду и описания архитектуры. Он просит рекомендации по подходящим инструментам или моделям в этой области.

media TLDR AI · 11 д назад

GPT-5.6, артефакты Claude Code, представленная память Brain от Perplexity

OpenAI объявил о выпуске GPT-5.6, новой версии языкового модели. Anthropic выпустил артефакты Claude Code, улучшающие возможности генерации кода. Perplexity представил память Brain, позволяющую возвращать контекст в ответах на запросы.

media Hugging Face Forums · 11 д назад

Запрос на принудительное удаление застрявшего пространства Hugging Face

Пользователь просит принудительное удаление пространства Hugging Face "kayinda/rxsteward", застрявшего в состоянии "Building". Все попытки удаления завершаются ошибками 403 или ошибками 400 невалидного ввода, что препятствует повторному использованию имени.

media AI News (smol.ai) · 11 д назад

Разрыв и прогресс открытия моделей GLM-5.2

Модель GLM-5.2 от Zhipu стала лучшей открытым весами, похвалена за свою производительность, приближенную к передовым, в повседневном использовании, с улучшением в задачах программирования и сокращением стоимости инференса на 1 млн токенов за счёт IndexShare. Она превзошла другие открытые модели в тестах по агентским задачам, достигнув 1266 Elo в тесте AA-Briefcase от Artificial Analysis, хотя только 3% задач были полностью выполнены лучшими моделями, что указывает на сохраняющиеся трудности в реальных долгосрочных агентских задачах.

lab NVIDIA Technical Blog · 11 д назад

Создайте собственный фундаментальную модель транзакций для финансовой интеллектуальности

Данные транзакций отражают богатые паттерны поведения человека и являются ключевым активом для предприятий. Текущие сценарии использования часто опираются на уязвимые, вручную разработанные признаки, которые не способны отражать последовательное поведение клиентов в истории транзакций.