Источник · r/LocalLLaMA
media r/LocalLLaMA · 9 д назад

GLM-5.2 превышает 80% на Terminal-Bench

GLM-5.2 — первый открытый модель с весами, достигший точности 80% на Terminal-Bench и превосходящий все другие доступные открытые модели. Он также превосходит Gemini, что делает его моделью передовой категории при значительно более низкой стоимости.

media r/LocalLLaMA · 10 д назад

HalBench проверяет 29 открытых моделей на сикофантизм и халлюцинации

HalBench оценивает 29 открытых моделей языковых моделей на специальном бенчмарке для сикофантизма и халлюцинаций. Qwen 3.6 и Gemma 4 превосходят более крупные модели, при этом Qwen 3.6 достигает 36,6% отклонения — выше, чем у GPT-5.4 и Gemini 3.1 Pro. Размер модели не коррелирует с честными ответами, что указывает на то, что архитектура и обучающие данные важнее, чем количество параметров.

media r/LocalLLaMA · 9 д назад

Мы открыли исходный код нашего агента на основе больших языковых моделей для быстрого обнаружения сбоев

Approxima — это открытый исходный, самодостаточный агент по вопросам и ответам, который отслеживает пользовательские маршруты и поддерживает Claude, Gemini и GPT по умолчанию. Он включает режим Explore, A/B-тестирование и самовосстановление для адаптации к эволюции продукта, с полной поддержкой локальных моделей и вклада сообщества.

media r/LocalLLaMA · 9 д назад

Evalatro: открытый бенчмарк, где LLMы играют реальную Balatro

Evalatro — это открытый бенчмарк, позволяющий LLMам играть в реальную игру Balatro. Модели получают состояние игры в виде текста, принимают решения независимо и соревнуются в достижении Ante 12. Текущие результаты показывают ограниченный прогресс — mimo-v2.5-pro достиг Ante 5, а deepseek-v4-pro не смог превзойти Ante 8.

media r/LocalLLaMA · 9 д назад

Glimmer 1: фундаментальная модель языка с 10 000 параметрами

Glimmer 1 — это модель языка с 10 000 параметрами, обученная на 500K токенов из FineWeb-Edu. У неё контекстное окно размером 512 токенов, стандартная архитектура Llama с 16 скрытыми размерами, 2 слоями, 4 внимательными головками и одной головкой КВ, использующей GQA, и доступна на Hugging Face.

media r/LocalLLaMA · 9 д назад

Призыв к открытым моделям и причины, по которым мы не можем доверять Frontier Labs

Статья делает акцент на открытых моделях языковых моделей, подчеркивая прозрачность и доступность. В ней выражена сомнительность в отношении Frontier Labs, что указывает на опасения по поводу их разработки моделей и открытости.

media r/LocalLLaMA · 9 д назад

VibeThinker-3B достигает передовых показателей по математике и программированию

VibeThinker-3B, расширенный из модели 1.5B, достигает передовых показателей в задачах по математике и программированию. Он получает 94.3 на AIME'26, 80.2 на LiveCodeBench v6, 76.4 на IMO-AnswerBench и 93.4 на IFEval, при 96.1% успехе при первом попытке на задачах LeetCode.

media r/LocalLLaMA · 9 д назад

Объявлен набор роботизированных инструментов Qwen

Aliyun представил набор роботизированных инструментов Qwen — новую совокупность инструментов на основе искусственного интеллекта. Набор направлен на то, чтобы позволить разработчикам создавать и внедрять интеллектуальных роботов с расширенными возможностями.

media r/LocalLLaMA · 9 д назад

Почему DiffusionGemma может отлично справляться с вызовами инструментов, несмотря на более низкое базовое качество

DiffusionGemma использует двунаправленное внимание, чтобы позволить самокоррекцию во время генерации токенов, позволяя ему исправлять более ранние токены в блоке из 256 токенов. Эта способность дает ему структурное преимущество при генерации корректных вызовов инструментов, поскольку он может исправлять искаженные выводы, которые автобазовые модели не могут исправить после того, как они были зафиксированы.

media r/LocalLLaMA · 9 д назад

Результаты теста производительности квантования Qwen3.6 27B

Тест, сравнивающий версии квантования Q8 и IQ3 XXS turbo4 для Qwen3.6 27B, показывает, что Q8 превосходит в безопасности API и очистке входных данных, в то время как IQ3 XXS turbo4 демонстрирует лучшие результаты в управлении потоками и проектировании модульного кода. Модель рекомендует объединить оба подхода: использовать Q8 для начальной защиты и IQ3 XXS для атомарных записей и жизненного цикла потоков, формируя совместную фундаментальную стадию первого этапа.

media r/LocalLLaMA · 9 д назад

Будьте осторожны перед использованием дистиллированных моделей Qwen/Claude — они часто хуже, чем базовые модели

Дистиллированные версии моделей Qwen и Claude, такие как Qwen 3.6, дистиллированный с использованием только 4000 образцов, редко улучшают производительность и часто ухудшают качество. Эти модели могут демонстрировать более «опус-подобный» стиль, но не передают реальных способностей, некоторые из них показывают халлюцинации и более медленные временные задержки по сравнению с базовыми моделями, как это демонстрируется в тестах и отчетах пользователей.

media r/LocalLLaMA · 9 д назад

Пожертвуйте свои сессии программирования в открытую базу данных под лицензией CC-BY-4.0

Проект под названием Trace Commons приглашает пользователей пожертвовать свои отслеживаемые сессии программирования в открытую базу данных, лицензированную под CC-BY-4.0. Инициатива направлена на предоставление обучающих данных для открытых моделей и открытого программного обеспечения, противодействуя возможным монополиям в области данных, связанным с Anthropic и OpenAI.

media r/LocalLLaMA · 10 д назад

Выпущен Qwable-v1 как дистиллят Claude Fable-5

Qwable-v1, открытая модель, дистиллированная из Fable-5 от Anthropic, теперь доступна в общественном доступе на Hugging Face. Она содержит 4659 прямых текстовых следов агентного кодирования из публичного корпуса Fable-5 и генерирует корректно сформированные вызовы <tool_use> в формате XML для инструментов, характерных для Claude, отражая исходную поверхность инструментов в своих весах.

media r/LocalLLaMA · 10 д назад

vLLM выпустил новый парсер потока для Qwen3+ в ночной версии

vLLM представил новый парсер потока для Qwen3+, доступный в его ночной сборке, который решает проблемы, такие как остановка на промежуточных этапах и сбой вызова потока инструментов из-за границ блоков. Обновление, по данным, устраняет эти проблемы при ограниченных тестах, повышая надежность для агентных рабочих процессов.

media r/LocalLLaMA · 9 д назад

Самый дешевый железо для Qwen 3.6: модели 27B и 35B-A3B

Пост на Reddit обсуждает экономичное железо для запуска моделей Qwen 3.6, как 27B, так и 35B-A3B, отмечая, что RTX 3090 24GB обеспечивает лучшее долгосрочное значение по сравнению с Tesla V100 из-за прекращения производства и появления китайских аналогов. Предлагаемая сборка составляет 1995,65 долларов, включая Ryzen 5 5600X, RTX 3 24GB и необходимые компоненты, с общей стоимостью, которая является ключевой проблемой для пользователей, стремящихся к доступности.

media r/LocalLLaMA · 9 д назад

Основатель Hashicorp утверждает, что локальные модели пока не достаточно хороши

Основатель Hashicorp Митчелл Хашимото утверждает, что локальные языковые модели пока не достаточно хороши. Пользователь Reddit спорит с этим утверждением, указывая, что за год многие люди успешно использовали локальные модели для программирования, при этом только "vibecoders" сталкивались с трудностями.

media r/LocalLLaMA · 9 д назад

Оценка небольших моделей LLM на поиске файлов на естественном языке

Оценка оценивает небольшие модели LLM (0,3B–3B параметров) по преобразованию естественных языковых запросов в структурированный JSON, с фокусом на тип файла, временной контекст, специфичность и комбинированные запросы. Результаты показывают, что модели с 0,8B–1,5B параметров превосходят модели с менее чем 0,5B параметров, проект направлен на расширение набора тестовых данных и исследование мелкой настройки для улучшения производительности.

media r/LocalLLaMA · 9 д назад

Тред о создании модели сообщества: возможна краудсорсированная тренировка

Модель сообщества может быть создана с использованием краудсорсированного вычислительного ресурса с помощью подхода 'Ветвь-Тренировка-Сшивка'. Участники тренируют прототипную модель на своих устройствах, отправляют подмодели с узкими областями применения, а организаторы соединяют их в крупную модель на основе смеси экспертов (MoE), при этом ключевые решения включают размер прототипа, определение областей применения и протоколы тренировки.