Wmf — новый экспериментальный метод
Содержимое статьи было удалено автором, поэтому никакой существенной информации о методе нет.
Содержимое статьи было удалено автором, поэтому никакой существенной информации о методе нет.
Непрограммист делится опытом настройки локальной инфраструктуры больших языковых моделей на MacBook M5 Max с 128 ГБ объединённой памяти. Пользователь подробно описывает свой программный стек, выбор моделей и цели изучения ИИ при создании стабильной системы с удалённым доступом.
Together AI представляет девять статей на ICML 2026, охватывающих полный стек разработки своей платформы.
Компании Hugging Face и Cerebras интегрировали модель Google Gemma 4 в свои платформы для реализации приложений голосового искусственного интеллекта в реальном времени. Это сотрудничество позволяет разработчикам использовать мультимодальные возможности Gemma 4 для задач обработки аудио с низкой задержкой.
Компания привлекла 800 миллионов долларов в рамках раунда финансирования серии C, направленного на ускорение перехода к искусственному интеллекту с открытым исходным кодом.
В этой статье представлен ScarfBench, бенчмарк, предназначенный для оценки производительности ИИ-агентов при миграции корпоративных приложений Java между различными фреймворками. Исследование подчеркивает сложность миграции фреймворков и предлагает стандартизированный метод оценки возможностей агентов в этой области.
Выпуск crewAI 1.15.2a1 включает несколько новых функций, исправлений ошибок и обновлений документации для фреймворка оркестрации агентов.
В этой статье представлен обзор обновлений и объявлений в области искусственного интеллекта, выпущенных компанией Google в июне 2026 года.
Выпуск llama.cpp b9859 вводит возможность загрузки предварительно скомпилированных бинарных ядер из библиотек для OpenCL, специально ориентированных на GPU Adreno. Это обновление также предоставляет бинарные файлы для macOS, Linux, Windows, Android и openEuler для CPU, GPU и различных ускорителей.
xAI объявила о бета-версии Voice Agent Builder, платформы без кода, предназначенной для настройки голосовых агентов производственного уровня в Grok Voice за две минуты. Этот инструмент позволяет операторам и разработчикам развертывать высоконагруженные голосовые агенты без создания с нуля базовой телекоммуникационной или ИИ-инфраструктуры.
Проект llama.cpp выпустил версию b9858, которая включает изменение для использования основного сплита Hugging Face в качестве пути к модели. Это обновление решает проблему #25181, касающуюся путей загрузки моделей.
Выпуск llama.cpp b9857 представляет собой комплексную переработку реализации Hexagon Flash Attention, сфокусированную на оптимизациях и улучшении точности. Это обновление включает значительные изменения в модулях hex-mm и hex-fa, такие как объединение задач квантования с основными потоками умножения матриц (matmul), слияние с операциями ADD и оптимизация обработки масок.
Проект llama.cpp выпустил версию b9855, которая вводит оптимизацию AVX2 для скалярного произведения nvfp4 с использованием таблицы поиска (LUT) UE4M3 в бэкенде ggml-cpu.
Проект llama.cpp выпустил версию b9856, внося последовательное использование ключевого слова `restrict` и PDL для Flash Attention в CUDA. Это обновление сопровождается предварительно собранными бинарными файлами для macOS, Linux, Android, Windows и openEuler на различных аппаратных бэкендах.
Обновление удаляет механизм резервного перехода Progressive Web App (PWA). Это изменение введено специально для предотвращения непреднамеренного кэширования запросов к конечным точкам API.
Проект llama.cpp выпустил версию b9852, в которой представлена начальная поддержка формата квантования q1_0 для OpenCL. Это обновление включает общие возможности q1_0 и специфичные реализации Adreno GEMM/GEMV для устройств OpenCL.
Anthropic восстанавливает глобальный доступ к своим моделям Claude Fable 5 и Mythos 5 после того, как правительство США сняло экспортные ограничения, которые приостановили доступность для всех пользователей. Fable 5 станет доступен глобально с 1 июля на платформе Claude, при этом будут действовать ограничения по использованию до 7 июля, после чего переход к доступу на основе кредитов.
Проект llama.cpp выпустил версию b9851, которая включает исправление для CUDA, предотвращающее ошибки усечения целых чисел и переполнения в ядре flash_attn_mask_to_KV_max. Это обновление решает проблемы, связанные с шагами маски KQ внутри указанного ядра.
Выпуск llama.cpp b9850 вносит обновления поддержки конкретных моделей, включая регистрацию тензора t_layer_inp для Qwen3Next, исправление назначения входных данных в цикле обработки слоев и устранение проблем DFLASH для qwen-coder-next. Также добавлен тензор для нормализации внимания в модели Qwen3.
Python SDK для Model Context Protocol (MCP) выпустила свою первую бета-версию, v2.0.0b1, которая добавляет полную поддержку спецификации MCP от 28 июля 2026 года. Этот предварительный выпуск доступен только по желанию, что гарантирует, что стандартные установки продолжают указывать на стабильную ветку 1.x.