r/LocalLLaMA — korshunov.ai — новости ML

Источник · r/LocalLLaMA

GLM-5.2 — первый открытый модель с весами, достигший точности 80% на Terminal-Bench и превосходящий все другие доступные открытые модели. Он также превосходит Gemini, что делает его моделью передовой категории при значительно более низкой стоимости.

media r/LocalLLaMA · 10 д назад

HalBench проверяет 29 открытых моделей на сикофантизм и халлюцинации

HalBench оценивает 29 открытых моделей языковых моделей на специальном бенчмарке для сикофантизма и халлюцинаций. Qwen 3.6 и Gemma 4 превосходят более крупные модели, при этом Qwen 3.6 достигает 36,6% отклонения — выше, чем у GPT-5.4 и Gemini 3.1 Pro. Размер модели не коррелирует с честными ответами, что указывает на то, что архитектура и обучающие данные важнее, чем количество параметров.

GLM-5.2 превышает 80% на Terminal-Bench

HalBench проверяет 29 открытых моделей на сикофантизм и халлюцинации

Мы открыли исходный код нашего агента на основе больших языковых моделей для быстрого обнаружения сбоев

Evalatro: открытый бенчмарк, где LLMы играют реальную Balatro

GLM-5.2 занимает второе место в WebDew Arena

Glimmer 1: фундаментальная модель языка с 10 000 параметрами

Призыв к открытым моделям и причины, по которым мы не можем доверять Frontier Labs

VibeThinker-3B достигает передовых показателей по математике и программированию

Объявлен набор роботизированных инструментов Qwen

Почему DiffusionGemma может отлично справляться с вызовами инструментов, несмотря на более низкое базовое качество

Результаты теста производительности квантования Qwen3.6 27B

Будьте осторожны перед использованием дистиллированных моделей Qwen/Claude — они часто хуже, чем базовые модели

Пожертвуйте свои сессии программирования в открытую базу данных под лицензией CC-BY-4.0

Nex-N2 Pro — это настоящее качество

Выпущен Qwable-v1 как дистиллят Claude Fable-5

vLLM выпустил новый парсер потока для Qwen3+ в ночной версии

Самый дешевый железо для Qwen 3.6: модели 27B и 35B-A3B

Основатель Hashicorp утверждает, что локальные модели пока не достаточно хороши

Оценка небольших моделей LLM на поиске файлов на естественном языке

Тред о создании модели сообщества: возможна краудсорсированная тренировка