GPT-5.5 Instant улучшает ответы ChatGPT по вопросам здоровья
GPT-5.5 Instant улучшает ответы ChatGPT по вопросам здоровья и благополучия за счёт более сильного мышления, лучшего обработки контекста, более чёткой коммуникации и медицинских оценок.
GPT-5.5 Instant улучшает ответы ChatGPT по вопросам здоровья и благополучия за счёт более сильного мышления, лучшего обработки контекста, более чёткой коммуникации и медицинских оценок.
OpenAI представил новые средства контроля расходов и аналитику использования для ChatGPT Enterprise. Эти функции помогают компаниям управлять расходами и принимать обоснованные решения при масштабировании использования ИИ.
Пользователь сообщает о запуске модели Qwen 3.6 27B MTP на двух GPU Radeon R9700 через llama.cpp с использованием ROCm 7.2.1. Проверки показывают стабильные скорости декодирования (40–67 t/s) и пропускную способность предварительной обработки (до 1500 t/s для промптов длиной менее 10 тысяч токенов), при этом коэффициенты принятия проектов MTP варьируются от 0.33 до 0.61.
Пост с названием 'Tokenomics' был представлен пользователем /u/HOLUPREDICTIONS на форуме LocalLLaMA. В нём содержится визуальная диаграмма распределения токенов и экономической модели, с ссылкой на изображение и секцию комментариев.
Пользователь с системой на 32 ГБ спрашивает, могут ли открытые модели соответствовать производительности Opus 4.8 в контексте из 1 млн токенов и в кодировании на локальной аппаратной платформе. Он отмечает, что текущие ограничения — это длина контекста и вопросы конфиденциальности, и спрашивает, возможно ли реализовать высококачественные модели, такие как GLM 5.2 или Qwen3.7, в рамках бюджета в 3500 долларов, подчеркивая, что запуск моделей на 70-80 миллиардов параметров даёт минимальные реальные преимущества по сравнению с моделями на 27 миллиардов параметров с контекстом в 256 тысяч токенов.
Проверки показывают, что vLLM достигает значительно более высоких скоростей генерации на моделях Qwen3.6, при этом модель 35B-A3B достигает скорости 156 t/s с использованием ROCm и AITER. ROCm превосходит Vulkan как по скорости в модели 35B, так и в модели 27B — скорости составляют около 106 t/s и 44 t/s соответственно, в то время как Vulkan достигает около 87 t/s и 41 t/s.
Версия llama.cpp b9747 вводит отслеживание прогресса загрузки модели в реальном времени через конечные точки SSE. В этом выпуске представлены бинарные файлы для macOS, Linux, Android, Windows и openEuler, поддерживающие различные архитектуры и технологии ускорения, такие как Vulkan, CUDA, OpenVINO и SYCL.
Разговор о эффективных методах сандбоксирования для агентов ИИ, выполняющих произвольный код, оценка контейнеров Docker, микровМ, WASM и выполнения на уровне хоста. В посте подчеркиваются требования к изоляции, быстрому запуску, контролю доступа к сети и поддержке постоянного файловой системы при выполнении, при этом просится об обмене реализациями и принятых компромиссах.
Версия llama.cpp b9745 вводит поддержку MTP3 шага 3.5/3.7, включая новые API для смещения слоев и флагов nextn. В релизе представлены предварительно скомпилированные бинарники для macOS, Linux, Android, Windows и openEuler, с возможностью использования ускорения на CPU, Vulkan, CUDA, OpenVINO и SYCL.
Пользователь сообщает о запуске MiMo-2.5 на двух машинах объёмом 128 ГБ с процессорами Intel 8060, используя контейнеры Proxmox и USB4Net для подключения. Настройка достигает производительности 356pp и 15tg при длине контекста 1% или 10k, однако пользователь сомневается, является ли это достижимой или высококлассной производительностью. Также отмечается сложность сборки vLLM и sglang для потребительских аппаратных средств, при этом vLLM оказывается ненадёжным, а sglang разработан для центров обработки данных, а не для личных систем.
Локальная модель LLM на 8-16 GPU MI50 достигает пика пропускной способности в 19 токенов в секунду (TPS) для модели Minimax M3. Производительность ограничена длинными логическими выводами и качеством кода, при спекулятивной декодировке показывается коэффициент принятия 50% и высокая задержка, что указывает на проблемы с использованием в задачах агентного программирования.
Пользователь сообщает, что OpenCode попадает в бесконечный "цикл мышления" при использовании локальных моделей, постоянно запрашивая себя без завершения. Ошибка возникает при использовании различных моделей и настроек, включая Qwen и GPT-OSS, и сохраняется как в среде llama.cpp, так и в среде LMStudio, хотя чат-окно в LMStudio работает нормально.
Anthropic скоро потребует от пользователей подтверждения личности для доступа к Клод. Изменение направлено на повышение безопасности и обеспечение ответственного использования платформы.
Пользователь сообщает о серьезных проблемах с производительностью двух GPU AMD R9700, которые не могут запускаться с использованием vLLM при тензорной параллелизации (tp=2) из-за ошибок NCCL. Производительность одиночного GPU при инференсе крайне низка — 30 tps для модели Qwen 0.6B и только 5 tps для модели 27B INT4 AWQ, несмотря на правильную установку ROCm и настройку системы.
AutoRound значительно превосходит стандартные AWQ и RTN по перплексити и точности, особенно в сложных задачах рассуждения и длинных контекстах. Он по умолчанию экспортируется в GGUF, избегая проблем с преобразованием, и работает на любой конфигурации PyTorch, однако всё же остаётся малоиспользуемым, несмотря на эти преимущества.
Руководство содержит 21 конвенцию настройки агента по 11 категориям, помеченных как внедрённые, развивающиеся или предложенные. В руководстве приведены реальные примеры из публичных репозиториев и явно указаны преувеличения, такие как llms.txt, который широко публикуется, но не подтверждён крупными поставщиками.
Предложение предлагает разделить архитектуру модели на стабильную базовую модель и легковесные, заменяемые рабочие модели. Базовая модель отвечает за основные рассуждения и выступает в роли платформы, в то время как рабочие модели обеспечивают специализированные знания через динамическое подключение в режиме выполнения, аналогично LoRA, но для знаний, а не для поведения.
Новый инструмент позволяет пользователям создавать среды в стиле комнат для ухода и наблюдать, как локальные LLM перемещаются и выходят из них с помощью простых действий. Проект, разработанный для хакатона "Build Small" Hugging Face x Gradio, поддерживает пять шаблонов моделей и позволяет создавать пользовательские карты с визуализацией на основе шрифтов и импортом/экспортом в формате JSON. Он использует рамку "Мысль, затем действие", чтобы обеспечить надежную работу малых моделей в структурированных игровых средах.
GLM-5.2 превосходит GPT-5.4 и всю линейку Гемини по производительности в программировании на бенчмарке DeepSWE. Однако он требует значительно большего количества токенов вывода, что делает его существенно менее эффективным с точки зрения затрат на задачу по сравнению с моделями, такими как GPT-5.5 и Claude Opus 4.8.
Пост на Reddit сообщает, что при использовании квантования кэша KV Gemma 4 QAT демонстрирует значительное улучшение производительности, измеренное на датасете wikitext с контекстом в 16k. Пользователь отмечает, что его аппаратные ограничения делают возможным тестирование моделей на 31B, и приглашает других исследовать полученные результаты.