Все статьи
media r/LocalLLaMA · 10 ч назад

Пересборка Gemma 4 31b... лучше... Как 26b...

Разработчик излагает план пересборки модели Gemma 4 31B путем снижения количества параметров до примерно 26B с целью улучшения производительности. Проект включает архитектурные изменения, специфические методы обучения и курирование датасетов для создания более компактной и эффективной модели.

media Hugging Face Forums · 12 ч назад

Могут ли LLM-агенты развивать предвидение?

В статье утверждается, что текущие LLM-агенты часто действуют с неявным осознанием последствий, чего недостаточно для задач со значительными последствиями. Предлагается «явное предвидение» как необходимый архитектурный слой для обеспечения моделирования рисков и прогнозирования эффектов агентами до выполнения.

media Hugging Face Forums · 12 ч назад

Какая модель с открытым исходным кодом лучше всего подходит для агентов службы поддержки?

Пользователь на форуме Hugging Face спрашивает, какая бесплатная ИИ-модель является лучшим выбором для создания чатбота или виртуального помощника службы поддержки клиентов на базе ИИ. В публикации отсутствуют конкретные сравнения моделей, результаты тестов или технические детали.

media Hugging Face Forums · 12 ч назад

Ошибка счётчика загрузок для моделей на Hugging Face

Пользователь на форуме сообщества Hugging Face сообщил, что статистика загрузок для его репозитория модели InternScience/Agents-A1-FP8 остаётся нулевой, несмотря на то, что она была загружена два дня назад. Пользователь отмечает, что в репозитории есть файл config.json и подозревает техническую проблему, препятствующую обновлению счётчика.

media Hugging Face Forums · 12 ч назад

Пользователи сообщают о задержке ответа от службы поддержки биллинга Hugging Face

Пользователь на форуме обсуждений Hugging Face сообщает, что его письмо в службу поддержки биллинга относительно несанкционированной подписки осталось без ответа. Человек ищет возврат средств за случайный платеж и отмечает отсутствие коммуникации, несмотря на то, что уже связался с командой поддержки.

media Hugging Face Forums · 12 ч назад

Лучшие практики обнаружения и получения дельт наборов данных

Пользователь на форуме Hugging Face запрашивает эффективные методы обнаружения момента добавления новых данных или обновления набора данных, с целью запуска конвейеров без повторной обработки всего набора данных.

media r/LocalLLaMA · 12 ч назад

1-битный Bonsai-8B от PrismML превосходит IBM Granite в вызове инструментов на CPU с использованием грамматики

Сравнительное тестирование модели PrismML Bonsai-8B (1 бит) против IBM Granite и других LLM показывает, что Bonsai-8B достигает максимальной точности вызова инструментов при использовании декодирования с грамматическими ограничениями. Тест проводился на CPU с помощью llama.cpp, подчеркивая критическую роль ограничений вывода для эффективной работы малых квантованных моделей в задачах агентов.

media r/LocalLLaMA · 12 ч назад

Lemonade SDK выпускает RPG-HaloTales-V1 для локального мультимедийного ролевого взаимодействия

SDK Lemonade выпустила новую модель под названием RPG-HaloTales-V1, предназначенную для обеспечения мультимедийного ролевого взаимодействия, которое пользователи могут запускать локально.

media r/LocalLLaMA · 12 ч назад

Бэкенд для NPC с локальным LLM с открытым исходным кодом для диалогов NPC между собой

Автор выпустил полностью локальный бэкенд преобразования речи в речь с открытым исходным кодом, предназначенный для NPC на базе больших языковых моделей, который обеспечивает прямые взаимодействия NPC между собой без зависимости от облачных сервисов. Система объединяет компоненты преобразования речи в текст, локальную LLM и преобразования текста в речь, позволяя NPC общаться друг с другом, сохранять контекст и влиять на будущие взаимодействия с игроком.

media r/LocalLLaMA · 13 ч назад

Лучшая модель для кодинга в конфигурации с 3x Spark?

Пользователь ищет рекомендации по лучшей модели для кодинга, которую можно запустить на выделенном аппаратном обеспечении, состоящем из трёх устройств Asus Ascent GX10 (GB10), рассчитывая на одновременную работу 5–10 пользователей.

media r/LocalLLaMA · 13 ч назад

Анди из Hugging Face демонстрирует полностью открытый голосовой пайплайн на базе Gemma 4 31B

Анди из Hugging Face выпустил полностью открытый и бесплатный демо-пример, создающий пайплайн голосового взаимодействия. Система интегрирует Nvidia parakeet, модель Gemma 4 31B, обслуживаемую Cerebras, и пользовательскую инференс-логику для Qwen3TTS.

media r/LocalLLaMA · 13 ч назад

Что внутри вашего RAG?

Пользователь Reddit ставит под сомнение практическую пользу Retrieval-Augmented Generation (RAG) для личных проектов, связанных с программированием, системным администрированием и небольшими кодовыми базами. Автор утверждает, что стандартные отраслевые знания уже хорошо покрыты моделями, в то время как специфические источники данных, такие как кодовые базы или справочники по API, либо слишком малы для индексации, либо слишком велики для эффективного управления.

media r/LocalLLaMA · 13 ч назад

Генеральный директор Palantir яростно выступает против закрытых моделей

Генеральный директор Palantir Алекс Карп публично раскритиковал Anthropic и OpenAI за alleged чрезмерную плату клиентам и misuse их данных. Эта позиция появляется после того, как Palantir недавно заключил сделку по покупке чипов Nvidia для запуска локальных моделей для своих корпоративных клиентов.

media r/LocalLLaMA · 13 ч назад

Дешёвый трюк для надёжного структурированного вывода: подача ошибки валидации обратно при повторной попытке

Для повышения надёжности при генерации структурированного вывода из больших языковых моделей предлагается метод, который подает ошибки валидации и предыдущий вывод модели обратно в промпт во время повторных попыток. Этот подход превращает процесс из случайного перебора ответов в самокоррекцию конкретных ошибок путем редактирования предыдущей попытки.