Клод скоро потребует подтверждения личности
Anthropic скоро потребует от пользователей подтверждения личности для доступа к Клод. Изменение направлено на повышение безопасности и обеспечение ответственного использования платформы.
Anthropic скоро потребует от пользователей подтверждения личности для доступа к Клод. Изменение направлено на повышение безопасности и обеспечение ответственного использования платформы.
Пользователь сообщает о серьезных проблемах с производительностью двух GPU AMD R9700, которые не могут запускаться с использованием vLLM при тензорной параллелизации (tp=2) из-за ошибок NCCL. Производительность одиночного GPU при инференсе крайне низка — 30 tps для модели Qwen 0.6B и только 5 tps для модели 27B INT4 AWQ, несмотря на правильную установку ROCm и настройку системы.
AutoRound значительно превосходит стандартные AWQ и RTN по перплексити и точности, особенно в сложных задачах рассуждения и длинных контекстах. Он по умолчанию экспортируется в GGUF, избегая проблем с преобразованием, и работает на любой конфигурации PyTorch, однако всё же остаётся малоиспользуемым, несмотря на эти преимущества.
Руководство содержит 21 конвенцию настройки агента по 11 категориям, помеченных как внедрённые, развивающиеся или предложенные. В руководстве приведены реальные примеры из публичных репозиториев и явно указаны преувеличения, такие как llms.txt, который широко публикуется, но не подтверждён крупными поставщиками.
Предложение предлагает разделить архитектуру модели на стабильную базовую модель и легковесные, заменяемые рабочие модели. Базовая модель отвечает за основные рассуждения и выступает в роли платформы, в то время как рабочие модели обеспечивают специализированные знания через динамическое подключение в режиме выполнения, аналогично LoRA, но для знаний, а не для поведения.
Новый инструмент позволяет пользователям создавать среды в стиле комнат для ухода и наблюдать, как локальные LLM перемещаются и выходят из них с помощью простых действий. Проект, разработанный для хакатона "Build Small" Hugging Face x Gradio, поддерживает пять шаблонов моделей и позволяет создавать пользовательские карты с визуализацией на основе шрифтов и импортом/экспортом в формате JSON. Он использует рамку "Мысль, затем действие", чтобы обеспечить надежную работу малых моделей в структурированных игровых средах.
GLM-5.2 превосходит GPT-5.4 и всю линейку Гемини по производительности в программировании на бенчмарке DeepSWE. Однако он требует значительно большего количества токенов вывода, что делает его существенно менее эффективным с точки зрения затрат на задачу по сравнению с моделями, такими как GPT-5.5 и Claude Opus 4.8.
Пост на Reddit сообщает, что при использовании квантования кэша KV Gemma 4 QAT демонстрирует значительное улучшение производительности, измеренное на датасете wikitext с контекстом в 16k. Пользователь отмечает, что его аппаратные ограничения делают возможным тестирование моделей на 31B, и приглашает других исследовать полученные результаты.
YouTube-видео сравнивает производительность Fable, GLM 5.2 и KIMI K2.7. Видео размещено на Reddit'е в разделе r/LocalLLaMA и содержит ссылку на видео и связанные комментарии.
Гуильемо Рауч, вице-президент Vercel, отметил, что он 'настоящим образом впечатлен, почти шокирован' производительностью GLM-5.2 в задачах программирования. Он поделился этим комментарием в посте на X, подчеркнув сильные способности модели к генерации кода.
После ухода Юньян Лина, Qwen прекратил открытую разработку своих моделей. К июню 2026 года все основные китайские лаборатории ИИ, кроме Qwen, выпустили открытые модели, которые были представлены позже, чем Qwen 3.7, который остается полностью закрытым.
Предлагаемая модель, называемая 'моделью чувств', предназначена для мышления исключительно через эмодзи. Идея заключается в создании первой модели, которая коммуницирует полностью через эмоциональные выражения эмодзи.
Пользователь сообщает, что получил письмо от Kimi.ai, связанное с одним из их видео на YouTube. Сообщение было поделено в Reddit в сообществе LocalLLaMA.
AllenAI выпустил две модели MolmoMotion, которые прогнозируют трёхмерные траектории точек на основе коротких историй видео и естественных языковых инструкций. Одна модель использует историю из трёх кадров, другая — из одного кадра, что позволяет прогнозировать будущее движение объектов в трёхмерном пространстве.
SupraLabs представила модель Supra-A2A-Nano-Exp, многомодальную модель на 30 млн параметров, которая объединяет текст, изображения и видео в один поток токенов. Модель рассматривает все модальности как токены в общей последовательности, позволяя проводить моделирование языка на совокупном словаре из 50 520 токенов без отдельных визуальных кодировщиков или модулей перекрестного внимания.
Пост на Reddit просит пользователей быть честными в отношении перепроектированных функций или систем, которые никто никогда не будет использовать. Пост побуждает к размышлениям о ненужной сложности в разработке программного обеспечения.
LLaMA.cpp выпускает версию b9746 с обновлёнными бинарниками для macOS, Linux, Android, Windows и openEuler. В релизе включено поддержка нескольких архитектур и аппаратных ускорителей, таких как Vulkan, CUDA, OpenVINO, SYCL и ROCm. Также доступен пакет интерфейса для доступа к пользовательскому интерфейсу.
Пользователь ищет текущую лучшую открытую модель визуального анализа, которая может работать на RTX 6000 Pro для распознавания текста и классификации исторических сканированных документов. Он отмечает, что Gemma 4 31B работает хорошо и превосходит визуальный декодер Qwen 3.6, и просит рекомендации по моделям за пределами этой модели.
semantic-memory — это локальная база знаний на языке Rust, которая объединяет поисковые методы BM25, векторного поиска и синтеза по рекурсивному ранжированию с SQLite. В ней реализованы типизированные графовые рёбра для причинных, временных и семантических связей, отслеживание происхождения, би-временная хранение и адаптивное направление запросов, поддерживая 18 инструментов MCP для ИИ-агентов. Все компоненты работают локально без зависимостей от облака, ключей API или телеметрии.
С GPU Tesla V100 32GB и системой из двух процессоров Xeon на Dell PowerEdge 730 с 384 ГБ DDR4 и несколькими терабайтами хранилища пользователи могут запускать локальные большие языковые модели (LLM) для экспериментов. Объем памяти и хранилища системы обеспечивает эффективное локальное выполнение и обучение моделей.