Источник · r/LocalLLaMA
media r/LocalLLaMA · 9 д назад

GLM-5.2 превышает 80% на Terminal-Bench

GLM-5.2 — первый открытый модель с весами, достигший точности 80% на Terminal-Bench и превосходящий все другие доступные открытые модели. Он также превосходит Gemini, что делает его моделью передовой категории при значительно более низкой стоимости.

media r/LocalLLaMA · 10 д назад

HalBench проверяет 29 открытых моделей на сикофантизм и халлюцинации

HalBench оценивает 29 открытых моделей языковых моделей на специальном бенчмарке для сикофантизма и халлюцинаций. Qwen 3.6 и Gemma 4 превосходят более крупные модели, при этом Qwen 3.6 достигает 36,6% отклонения — выше, чем у GPT-5.4 и Gemini 3.1 Pro. Размер модели не коррелирует с честными ответами, что указывает на то, что архитектура и обучающие данные важнее, чем количество параметров.

media r/LocalLLaMA · 9 д назад

Glimmer 1: фундаментальная модель языка с 10 000 параметрами

Glimmer 1 — это модель языка с 10 000 параметрами, обученная на 500K токенов из FineWeb-Edu. У неё контекстное окно размером 512 токенов, стандартная архитектура Llama с 16 скрытыми размерами, 2 слоями, 4 внимательными головками и одной головкой КВ, использующей GQA, и доступна на Hugging Face.

media r/LocalLLaMA · 9 д назад

Призыв к открытым моделям и причины, по которым мы не можем доверять Frontier Labs

Статья делает акцент на открытых моделях языковых моделей, подчеркивая прозрачность и доступность. В ней выражена сомнительность в отношении Frontier Labs, что указывает на опасения по поводу их разработки моделей и открытости.

media r/LocalLLaMA · 9 д назад

VibeThinker-3B достигает передовых показателей по математике и программированию

VibeThinker-3B, расширенный из модели 1.5B, достигает передовых показателей в задачах по математике и программированию. Он получает 94.3 на AIME'26, 80.2 на LiveCodeBench v6, 76.4 на IMO-AnswerBench и 93.4 на IFEval, при 96.1% успехе при первом попытке на задачах LeetCode.

media r/LocalLLaMA · 9 д назад

Объявлен набор роботизированных инструментов Qwen

Aliyun представил набор роботизированных инструментов Qwen — новую совокупность инструментов на основе искусственного интеллекта. Набор направлен на то, чтобы позволить разработчикам создавать и внедрять интеллектуальных роботов с расширенными возможностями.

media r/LocalLLaMA · 9 д назад

Почему DiffusionGemma может отлично справляться с вызовами инструментов, несмотря на более низкое базовое качество

DiffusionGemma использует двунаправленное внимание, чтобы позволить самокоррекцию во время генерации токенов, позволяя ему исправлять более ранние токены в блоке из 256 токенов. Эта способность дает ему структурное преимущество при генерации корректных вызовов инструментов, поскольку он может исправлять искаженные выводы, которые автобазовые модели не могут исправить после того, как они были зафиксированы.

media r/LocalLLaMA · 9 д назад

Результаты теста производительности квантования Qwen3.6 27B

Тест, сравнивающий версии квантования Q8 и IQ3 XXS turbo4 для Qwen3.6 27B, показывает, что Q8 превосходит в безопасности API и очистке входных данных, в то время как IQ3 XXS turbo4 демонстрирует лучшие результаты в управлении потоками и проектировании модульного кода. Модель рекомендует объединить оба подхода: использовать Q8 для начальной защиты и IQ3 XXS для атомарных записей и жизненного цикла потоков, формируя совместную фундаментальную стадию первого этапа.

media r/LocalLLaMA · 9 д назад

Будьте осторожны перед использованием дистиллированных моделей Qwen/Claude — они часто хуже, чем базовые модели

Дистиллированные версии моделей Qwen и Claude, такие как Qwen 3.6, дистиллированный с использованием только 4000 образцов, редко улучшают производительность и часто ухудшают качество. Эти модели могут демонстрировать более «опус-подобный» стиль, но не передают реальных способностей, некоторые из них показывают халлюцинации и более медленные временные задержки по сравнению с базовыми моделями, как это демонстрируется в тестах и отчетах пользователей.

media r/LocalLLaMA · 9 д назад

Пожертвуйте свои сессии программирования в открытую базу данных под лицензией CC-BY-4.0

Проект под названием Trace Commons приглашает пользователей пожертвовать свои отслеживаемые сессии программирования в открытую базу данных, лицензированную под CC-BY-4.0. Инициатива направлена на предоставление обучающих данных для открытых моделей и открытого программного обеспечения, противодействуя возможным монополиям в области данных, связанным с Anthropic и OpenAI.

media r/LocalLLaMA · 10 д назад

Выпущен Qwable-v1 как дистиллят Claude Fable-5

Qwable-v1, открытая модель, дистиллированная из Fable-5 от Anthropic, теперь доступна в общественном доступе на Hugging Face. Она содержит 4659 прямых текстовых следов агентного кодирования из публичного корпуса Fable-5 и генерирует корректно сформированные вызовы <tool_use> в формате XML для инструментов, характерных для Claude, отражая исходную поверхность инструментов в своих весах.

media r/LocalLLaMA · 10 д назад

vLLM выпустил новый парсер потока для Qwen3+ в ночной версии

vLLM представил новый парсер потока для Qwen3+, доступный в его ночной сборке, который решает проблемы, такие как остановка на промежуточных этапах и сбой вызова потока инструментов из-за границ блоков. Обновление, по данным, устраняет эти проблемы при ограниченных тестах, повышая надежность для агентных рабочих процессов.

media r/LocalLLaMA · 9 д назад

Оценка небольших моделей LLM на поиске файлов на естественном языке

Оценка оценивает небольшие модели LLM (0,3B–3B параметров) по преобразованию естественных языковых запросов в структурированный JSON, с фокусом на тип файла, временной контекст, специфичность и комбинированные запросы. Результаты показывают, что модели с 0,8B–1,5B параметров превосходят модели с менее чем 0,5B параметров, проект направлен на расширение набора тестовых данных и исследование мелкой настройки для улучшения производительности.

media r/LocalLLaMA · 9 д назад

Тред о создании модели сообщества: возможна краудсорсированная тренировка

Модель сообщества может быть создана с использованием краудсорсированного вычислительного ресурса с помощью подхода 'Ветвь-Тренировка-Сшивка'. Участники тренируют прототипную модель на своих устройствах, отправляют подмодели с узкими областями применения, а организаторы соединяют их в крупную модель на основе смеси экспертов (MoE), при этом ключевые решения включают размер прототипа, определение областей применения и протоколы тренировки.

media r/LocalLLaMA · 9 д назад

Mistral объявляет о новой семье открытых моделей в июле

Mistral выпустил новую семью открытых моделей языковых моделей в июле. Модели разработаны для доступности и использования разработчиками и исследователями по всему миру, что способствует прозрачности и инновациям в области ИИ.