GPT-5.5 Instant улучшает ответы ChatGPT по вопросам здоровья
GPT-5.5 Instant улучшает ответы ChatGPT по вопросам здоровья и благополучия за счёт более сильного мышления, лучшего обработки контекста, более чёткой коммуникации и медицинских оценок.
GPT-5.5 Instant улучшает ответы ChatGPT по вопросам здоровья и благополучия за счёт более сильного мышления, лучшего обработки контекста, более чёткой коммуникации и медицинских оценок.
Правительство Великобритании сотрудничает с Google DeepMind для разработки прототипа на основе искусственного интеллекта, направленного на ускорение процесса принятия решений по планированию жилья. Инициатива направлена на упрощение процесса строительства домов за счёт использования искусственного интеллекта для повышения эффективности принятия решений.
OpenAI представил новые средства контроля расходов и аналитику использования для ChatGPT Enterprise. Эти функции помогают компаниям управлять расходами и принимать обоснованные решения при масштабировании использования ИИ.
Пользователь сообщает о запуске модели Qwen 3.6 27B MTP на двух GPU Radeon R9700 через llama.cpp с использованием ROCm 7.2.1. Проверки показывают стабильные скорости декодирования (40–67 t/s) и пропускную способность предварительной обработки (до 1500 t/s для промптов длиной менее 10 тысяч токенов), при этом коэффициенты принятия проектов MTP варьируются от 0.33 до 0.61.
Пост с названием 'Tokenomics' был представлен пользователем /u/HOLUPREDICTIONS на форуме LocalLLaMA. В нём содержится визуальная диаграмма распределения токенов и экономической модели, с ссылкой на изображение и секцию комментариев.
Пользователь с системой на 32 ГБ спрашивает, могут ли открытые модели соответствовать производительности Opus 4.8 в контексте из 1 млн токенов и в кодировании на локальной аппаратной платформе. Он отмечает, что текущие ограничения — это длина контекста и вопросы конфиденциальности, и спрашивает, возможно ли реализовать высококачественные модели, такие как GLM 5.2 или Qwen3.7, в рамках бюджета в 3500 долларов, подчеркивая, что запуск моделей на 70-80 миллиардов параметров даёт минимальные реальные преимущества по сравнению с моделями на 27 миллиардов параметров с контекстом в 256 тысяч токенов.
Проверки показывают, что vLLM достигает значительно более высоких скоростей генерации на моделях Qwen3.6, при этом модель 35B-A3B достигает скорости 156 t/s с использованием ROCm и AITER. ROCm превосходит Vulkan как по скорости в модели 35B, так и в модели 27B — скорости составляют около 106 t/s и 44 t/s соответственно, в то время как Vulkan достигает около 87 t/s и 41 t/s.
Версия llama.cpp b9747 вводит отслеживание прогресса загрузки модели в реальном времени через конечные точки SSE. В этом выпуске представлены бинарные файлы для macOS, Linux, Android, Windows и openEuler, поддерживающие различные архитектуры и технологии ускорения, такие как Vulkan, CUDA, OpenVINO и SYCL.
Разговор о эффективных методах сандбоксирования для агентов ИИ, выполняющих произвольный код, оценка контейнеров Docker, микровМ, WASM и выполнения на уровне хоста. В посте подчеркиваются требования к изоляции, быстрому запуску, контролю доступа к сети и поддержке постоянного файловой системы при выполнении, при этом просится об обмене реализациями и принятых компромиссах.
Версия llama.cpp b9745 вводит поддержку MTP3 шага 3.5/3.7, включая новые API для смещения слоев и флагов nextn. В релизе представлены предварительно скомпилированные бинарники для macOS, Linux, Android, Windows и openEuler, с возможностью использования ускорения на CPU, Vulkan, CUDA, OpenVINO и SYCL.
Пользователь сообщает о запуске MiMo-2.5 на двух машинах объёмом 128 ГБ с процессорами Intel 8060, используя контейнеры Proxmox и USB4Net для подключения. Настройка достигает производительности 356pp и 15tg при длине контекста 1% или 10k, однако пользователь сомневается, является ли это достижимой или высококлассной производительностью. Также отмечается сложность сборки vLLM и sglang для потребительских аппаратных средств, при этом vLLM оказывается ненадёжным, а sglang разработан для центров обработки данных, а не для личных систем.
Локальная модель LLM на 8-16 GPU MI50 достигает пика пропускной способности в 19 токенов в секунду (TPS) для модели Minimax M3. Производительность ограничена длинными логическими выводами и качеством кода, при спекулятивной декодировке показывается коэффициент принятия 50% и высокая задержка, что указывает на проблемы с использованием в задачах агентного программирования.
Пользователь сообщает, что OpenCode попадает в бесконечный "цикл мышления" при использовании локальных моделей, постоянно запрашивая себя без завершения. Ошибка возникает при использовании различных моделей и настроек, включая Qwen и GPT-OSS, и сохраняется как в среде llama.cpp, так и в среде LMStudio, хотя чат-окно в LMStudio работает нормально.
Anthropic скоро потребует от пользователей подтверждения личности для доступа к Клод. Изменение направлено на повышение безопасности и обеспечение ответственного использования платформы.
Пользователь сообщает о серьезных проблемах с производительностью двух GPU AMD R9700, которые не могут запускаться с использованием vLLM при тензорной параллелизации (tp=2) из-за ошибок NCCL. Производительность одиночного GPU при инференсе крайне низка — 30 tps для модели Qwen 0.6B и только 5 tps для модели 27B INT4 AWQ, несмотря на правильную установку ROCm и настройку системы.
AutoRound значительно превосходит стандартные AWQ и RTN по перплексити и точности, особенно в сложных задачах рассуждения и длинных контекстах. Он по умолчанию экспортируется в GGUF, избегая проблем с преобразованием, и работает на любой конфигурации PyTorch, однако всё же остаётся малоиспользуемым, несмотря на эти преимущества.
Руководство содержит 21 конвенцию настройки агента по 11 категориям, помеченных как внедрённые, развивающиеся или предложенные. В руководстве приведены реальные примеры из публичных репозиториев и явно указаны преувеличения, такие как llms.txt, который широко публикуется, но не подтверждён крупными поставщиками.
Предложение предлагает разделить архитектуру модели на стабильную базовую модель и легковесные, заменяемые рабочие модели. Базовая модель отвечает за основные рассуждения и выступает в роли платформы, в то время как рабочие модели обеспечивают специализированные знания через динамическое подключение в режиме выполнения, аналогично LoRA, но для знаний, а не для поведения.
Новый инструмент позволяет пользователям создавать среды в стиле комнат для ухода и наблюдать, как локальные LLM перемещаются и выходят из них с помощью простых действий. Проект, разработанный для хакатона "Build Small" Hugging Face x Gradio, поддерживает пять шаблонов моделей и позволяет создавать пользовательские карты с визуализацией на основе шрифтов и импортом/экспортом в формате JSON. Он использует рамку "Мысль, затем действие", чтобы обеспечить надежную работу малых моделей в структурированных игровых средах.
GLM-5.2 превосходит GPT-5.4 и всю линейку Гемини по производительности в программировании на бенчмарке DeepSWE. Однако он требует значительно большего количества токенов вывода, что делает его существенно менее эффективным с точки зрения затрат на задачу по сравнению с моделями, такими как GPT-5.5 и Claude Opus 4.8.