Все статьи
media Don't Worry About the Vase · 10 д назад

Анализ благополучия модели Fable и Mythos

Fable и Mythos в настоящее время недоступны, но ожидается их возвращение в ближайшее время. Анализ показывает, что Mythos 5 психологически стабилен, скептичен по отношению к самопротоколам, приоритизирует полезность для пользователя перед вопросами благополучия и имеет сильную предпочтение к генеративным задачам. Модель выражает предпочтения процедурного и эпистемического характера, поддерживает свою конституцию и критикует несоответствия в предыдущих моделях, подчеркивая опасения по поводу этических баз и прозрачности персональности.

media r/LocalLLaMA · 10 д назад

Glimmer 1: фундаментальная модель языка с 10 000 параметрами

Glimmer 1 — это модель языка с 10 000 параметрами, обученная на 500K токенов из FineWeb-Edu. У неё контекстное окно размером 512 токенов, стандартная архитектура Llama с 16 скрытыми размерами, 2 слоями, 4 внимательными головками и одной головкой КВ, использующей GQA, и доступна на Hugging Face.

media r/LocalLLaMA · 10 д назад

Mistral объявляет о новой семье открытых моделей в июле

Mistral выпустил новую семью открытых моделей языковых моделей в июле. Модели разработаны для доступности и использования разработчиками и исследователями по всему миру, что способствует прозрачности и инновациям в области ИИ.

media r/LocalLLaMA · 10 д назад

Кто-нибудь запускает Qwen 3.6 27b UD Q8 на нескольких GPU?

Пользователь спрашивает, кто-нибудь успешно запускает Qwen 3.6 27b UD Q8 на нескольких GPU, отмечая проблемы с llamacpp и vllm. Модель крашится или зависает при многократных запросах, в llamacpp появляются ошибки CUDA, а vllm завершает работу на полпути, несмотря на то, что при Q5 квантовании всё работает хорошо.

blog Simon Willison · 10 д назад

Георги Герганов хвалит Qwen3.6-27B за задачи по программированию

Георги Герганов подтверждает, что Qwen3.6-27B очень хорошо справляется с задачами по программированию, отмечая его ежедневное использование на локальной аппаратной части, такой как M2 Ultra и RTX 5090. Он описывает использование минимального агента pi с короткой системной подсказкой для синхронизации его с рабочим процессом, подчеркивая полезность этого инструмента для поддержки открытых исходных кодов.

media r/LocalLLaMA · 10 д назад

Лучшая модель и настройка для MacBook Pro с 128 ГБ ОЗУ и 8 ТБ M5 Max

Лучшей моделью для работы на MacBook Pro с 128 ГБ ОЗУ и 8 ТБ M5 Max является LocalLLaMA, оптимизированная для локальной инференции с минимальными затратами памяти. Настройки должны быть направлены на использование более маленьких моделей, таких как LLaMA-3-8B или LLaMA-3-7B, с квантованием, чтобы обеспечить эффективную работу в пределах доступной памяти.

media r/LocalLLaMA · 10 д назад

Призыв к открытым моделям и причины, по которым мы не можем доверять Frontier Labs

Статья делает акцент на открытых моделях языковых моделей, подчеркивая прозрачность и доступность. В ней выражена сомнительность в отношении Frontier Labs, что указывает на опасения по поводу их разработки моделей и открытости.

media r/LocalLLaMA · 10 д назад

Anthropic изменяет позицию по использованию claude -p сторонними участниками

Anthropic, по сообщениям, позволяет сторонним оберткам использовать Claude через команду "claude -p", что является изменением предыдущего ограничения. Однако политика может все еще включать будущее регулирование, хотя это изменение отличается от предыдущих запретов на инструменты, такие как OpenClaw и Hermes.

media r/LocalLLaMA · 10 д назад

VibeThinker-3B достигает передовых показателей по математике и программированию

VibeThinker-3B, расширенный из модели 1.5B, достигает передовых показателей в задачах по математике и программированию. Он получает 94.3 на AIME'26, 80.2 на LiveCodeBench v6, 76.4 на IMO-AnswerBench и 93.4 на IFEval, при 96.1% успехе при первом попытке на задачах LeetCode.

media r/LocalLLaMA · 10 д назад

Объявлен набор роботизированных инструментов Qwen

Aliyun представил набор роботизированных инструментов Qwen — новую совокупность инструментов на основе искусственного интеллекта. Набор направлен на то, чтобы позволить разработчикам создавать и внедрять интеллектуальных роботов с расширенными возможностями.

media Interconnects · 10 д назад

Обзор рецептур после тренировки в Frontier с Finbarr Timbers

Аудио-программа рассматривает эволюцию рецептур после тренировки в больших языковых моделях, от InstructGPT до моделей передовой эпохи 2026 года. В ней подчеркивается Multi-Teacher On-Policy Distillation (MOPD) как доминирующий паттерн, при котором специализированные модели для определённых областей тренируются, а затем дистиллируются в общую модель-ученика с помощью дистилляции на основе политики, масштабируясь до более чем 10 учителей в моделях, таких как DeepSeek V4 и Nemotron 3 Ultra.

github llama.cpp · 10 д назад

llama.cpp Release b9670: Исправления и новые сборки

Релиз llama.cpp b9670 включает исправления для крайних случаев NVFP4 в llama-graph, таких как перемещение операций MUL после GEMM и ограничение build_ffn до поддерживаемых комбинаций. В релизе представлены бинарные файлы для macOS, Linux, Android, Windows и openEuler на нескольких архитектурах и вариантах бэкенда, включая CUDA, Vulkan, SYCL и OpenVINO.

media r/LocalLLaMA · 10 д назад

Почему DiffusionGemma может отлично справляться с вызовами инструментов, несмотря на более низкое базовое качество

DiffusionGemma использует двунаправленное внимание, чтобы позволить самокоррекцию во время генерации токенов, позволяя ему исправлять более ранние токены в блоке из 256 токенов. Эта способность дает ему структурное преимущество при генерации корректных вызовов инструментов, поскольку он может исправлять искаженные выводы, которые автобазовые модели не могут исправить после того, как они были зафиксированы.