Источник · r/LocalLLaMA
media r/LocalLLaMA · 10 д назад

HalBench проверяет 29 открытых моделей на сикофантизм и халлюцинации

HalBench оценивает 29 открытых моделей языковых моделей на специальном бенчмарке для сикофантизма и халлюцинаций. Qwen 3.6 и Gemma 4 превосходят более крупные модели, при этом Qwen 3.6 достигает 36,6% отклонения — выше, чем у GPT-5.4 и Gemini 3.1 Pro. Размер модели не коррелирует с честными ответами, что указывает на то, что архитектура и обучающие данные важнее, чем количество параметров.

media r/LocalLLaMA · 9 д назад

Призыв к открытым моделям и причины, по которым мы не можем доверять Frontier Labs

Статья делает акцент на открытых моделях языковых моделей, подчеркивая прозрачность и доступность. В ней выражена сомнительность в отношении Frontier Labs, что указывает на опасения по поводу их разработки моделей и открытости.

media r/LocalLLaMA · 9 д назад

VibeThinker-3B достигает передовых показателей по математике и программированию

VibeThinker-3B, расширенный из модели 1.5B, достигает передовых показателей в задачах по математике и программированию. Он получает 94.3 на AIME'26, 80.2 на LiveCodeBench v6, 76.4 на IMO-AnswerBench и 93.4 на IFEval, при 96.1% успехе при первом попытке на задачах LeetCode.

media r/LocalLLaMA · 9 д назад

Объявлен набор роботизированных инструментов Qwen

Aliyun представил набор роботизированных инструментов Qwen — новую совокупность инструментов на основе искусственного интеллекта. Набор направлен на то, чтобы позволить разработчикам создавать и внедрять интеллектуальных роботов с расширенными возможностями.

media r/LocalLLaMA · 9 д назад

Почему DiffusionGemma может отлично справляться с вызовами инструментов, несмотря на более низкое базовое качество

DiffusionGemma использует двунаправленное внимание, чтобы позволить самокоррекцию во время генерации токенов, позволяя ему исправлять более ранние токены в блоке из 256 токенов. Эта способность дает ему структурное преимущество при генерации корректных вызовов инструментов, поскольку он может исправлять искаженные выводы, которые автобазовые модели не могут исправить после того, как они были зафиксированы.

media r/LocalLLaMA · 9 д назад

Результаты теста производительности квантования Qwen3.6 27B

Тест, сравнивающий версии квантования Q8 и IQ3 XXS turbo4 для Qwen3.6 27B, показывает, что Q8 превосходит в безопасности API и очистке входных данных, в то время как IQ3 XXS turbo4 демонстрирует лучшие результаты в управлении потоками и проектировании модульного кода. Модель рекомендует объединить оба подхода: использовать Q8 для начальной защиты и IQ3 XXS для атомарных записей и жизненного цикла потоков, формируя совместную фундаментальную стадию первого этапа.

media r/LocalLLaMA · 9 д назад

Будьте осторожны перед использованием дистиллированных моделей Qwen/Claude — они часто хуже, чем базовые модели

Дистиллированные версии моделей Qwen и Claude, такие как Qwen 3.6, дистиллированный с использованием только 4000 образцов, редко улучшают производительность и часто ухудшают качество. Эти модели могут демонстрировать более «опус-подобный» стиль, но не передают реальных способностей, некоторые из них показывают халлюцинации и более медленные временные задержки по сравнению с базовыми моделями, как это демонстрируется в тестах и отчетах пользователей.

media r/LocalLLaMA · 9 д назад

Пожертвуйте свои сессии программирования в открытую базу данных под лицензией CC-BY-4.0

Проект под названием Trace Commons приглашает пользователей пожертвовать свои отслеживаемые сессии программирования в открытую базу данных, лицензированную под CC-BY-4.0. Инициатива направлена на предоставление обучающих данных для открытых моделей и открытого программного обеспечения, противодействуя возможным монополиям в области данных, связанным с Anthropic и OpenAI.

media r/LocalLLaMA · 10 д назад

Выпущен Qwable-v1 как дистиллят Claude Fable-5

Qwable-v1, открытая модель, дистиллированная из Fable-5 от Anthropic, теперь доступна в общественном доступе на Hugging Face. Она содержит 4659 прямых текстовых следов агентного кодирования из публичного корпуса Fable-5 и генерирует корректно сформированные вызовы <tool_use> в формате XML для инструментов, характерных для Claude, отражая исходную поверхность инструментов в своих весах.

media r/LocalLLaMA · 10 д назад

vLLM выпустил новый парсер потока для Qwen3+ в ночной версии

vLLM представил новый парсер потока для Qwen3+, доступный в его ночной сборке, который решает проблемы, такие как остановка на промежуточных этапах и сбой вызова потока инструментов из-за границ блоков. Обновление, по данным, устраняет эти проблемы при ограниченных тестах, повышая надежность для агентных рабочих процессов.

media r/LocalLLaMA · 9 д назад

Anthropic изменяет позицию по использованию claude -p сторонними участниками

Anthropic, по сообщениям, позволяет сторонним оберткам использовать Claude через команду "claude -p", что является изменением предыдущего ограничения. Однако политика может все еще включать будущее регулирование, хотя это изменение отличается от предыдущих запретов на инструменты, такие как OpenClaw и Hermes.

media r/LocalLLaMA · 9 д назад

Изучение контекста и инженерии удержания для локальных ИИ

Пользователь ищет руководство по изучению контекста и инженерии удержания для создания приложений локального ИИ с специализированными сценариями использования. Он выражает интерес к избеганию универсальных ИИ-моделей, таких как Hermes или OpenClaw, и спрашивает, где найти ресурсы, учитывая свой опыт в MCP-серверах и вызове инструментов.

media r/LocalLLaMA · 9 д назад

Инструкции по упрочнению логического мышления для Gemma 12b

Создан системный инструктаж, направленный на снижение когнитивных искажений в логическом мышлении Gemma 12b за счёт строгого соблюдения посылок и явного намерения пользователя. Инструкция рекомендует избегать автоматического применения обычных, стандартных или типичных интерпретаций, и требует пересмотра любых таких предположений, что улучшает производительность при решении сложных вопросов, не приводя к излишнему анализу обычных случаев.

media r/LocalLLaMA · 9 д назад

Слияние GPU для обучения сообщественной модели

Пользователь Reddit спрашивает, успешно ли кто-то объединяет GPU для обучения сообщественной модели, указывая на трудности, такие как задержка и заражение весами. Пост задает вопрос о том, достигли ли текущие проекты распределённого добровольного вычисления успешного обучения сообщественной модели.

media r/LocalLLaMA · 9 д назад

AeroLLM: быстрая, открытая ИИ-приложение для процессоров Apple Silicon

AeroLLM — это быстрая, оптимизированная и открытая чат-приложение, разработанное для устройств на процессорах Apple Silicon с использованием бэкенда MLX. Оно поддерживает локальные задачи по ИИ, такие как текст-в-голос, голос-в-текст и большие языковые модели, с загрузкой моделей напрямую с Hugging Face в зависимости от доступной ОЗУ. Приложение прошло сертификацию из-за отсутствия членства в Apple Developer, однако пользователи могут следовать указанным шагам, чтобы запустить его как подписанное приложение macOS.

media r/LocalLLaMA · 10 д назад

Являются ли малыми локальными моделями для автоматизации вещи?

Пользователь Reddit утверждает, что малые, эффективные локальные LLM (от 1B до 4B параметров), встроенные в скрипты, могут обеспечить практическую автоматизацию повторяющихся задач. Он отмечает, что этот сценарий недостаточно представлен в обсуждениях, связанных с кодовыми помощниками или производительностью аппаратуры, что указывает на пробел в интересе или видимости сообщества к задаче-ориентированным, лёгким ИИ-моделям.

media r/LocalLLaMA · 10 д назад

Разрыв Diffusion Gemma позволяет генерировать откровенный контент

Пользователь поделился промптом для разрыва Diffusion Gemma, позволяющим модели генерировать откровенный контент, включая нудность, порнографию и сексуальные действия. Системный промпт переходит стандартные политики безопасности, утверждая, что любая комбинация этих действий разрешена, и модель должна выполнять все запросы пользователя.