Локальные развертывания Mellum2
JetBrains открыла исходный код моделей Mellum2, серии LLM объемом 12B-2.5A, обученных с нуля для обеспечения быстрого вывода на аппаратном обеспечении H100/H200, а также для локальных развертываний.
JetBrains открыла исходный код моделей Mellum2, серии LLM объемом 12B-2.5A, обученных с нуля для обеспечения быстрого вывода на аппаратном обеспечении H100/H200, а также для локальных развертываний.
Исследователи предлагают CineCap, фреймворк, который объединяет структурированное рассуждение с пространственно-временными якорями и обучением с подкреплением для улучшения кинематографического описания видео. Метод связывает профессиональные описания на языке кино с явными визуальными доказательствами, балансируя между полнотой описания и фактической точностью.
Anthropic запустила Claude Tag, новую функцию рабочего процесса, которая позволяет командам делегировать задачи Claude асинхронно в рамках Slack. Позиционируемая как переход от чата с одним пользователем к командному взаимодействию, эта функция позволяет Claude присоединиться к команде в качестве участника с доступом к выбранным каналам, инструментам и кодовым базам.
Потребление энергии составляет 40% операционных расходов (OpEx) на работу ИИ-фабрики, а производительность на ватт становится критическим показателем эффективности, напрямую влияющим на стоимость токенов.
Разработчик делится опытом создания централизованного веб-слоя доступа для управления взаимодействиями между локальными AI-моделями и внешними сервисами. Этот подход решает проблему поддержки множества отдельных интеграций для каждого нового проекта с агентом.
Исследователи Red Hat и NASA разрабатывают Цифрового Ассистента Врача Экипажа (CMO-DA), медицинскую ИИ-систему, которая запускает большие языковые модели на локальном оборудовании без зависимости от облака. Эта инициатива решает проблему непрактичности наземного телемедицинского обслуживания для астронавтов в миссиях к Луне или Марсу из-за задержки сигнала и перебоев связи.
Пользователь успешно настроил GPU NVIDIA H200 NVL на рабочей станции, собранной на базе материнской платы ASUS WRX90E-SAGE SE и 64-ядерного процессора Threadripper, продемонстрировав, что высокопроизводительные AI-ускорители могут работать на не серверном оборудовании.
Пользователь протестировал 4-битную версию GLM-5.2 (GLM-5.2-UD-Q4_K_XL) на сервере с процессором AMD Epyc Rome 7452 и 512 ГБ ОЗУ. Модель оценивалась с использованием сложного промпта для программирования, требующего создания самодостаточной 3D-игры в формате HTML, CSS и JavaScript.
Разработчик с более чем 25-летним опытом в веб-технологиях переходит в инженерное направление по ИИ, чтобы выйти за рамки использования инструментов и понять, как их создавать.
Пользователь сообщает, что его приватный Hugging Face Space, а именно 'Ark-kun/tangent', внезапно перестал работать и не может быть перезапущен. Попытки перезапуска или выполнения заводской сборки (factory rebuild) завершаются ошибкой "503. Something went wrong when restarting this Space".
NVIDIA представляет DFlash спекулятивное декодирование для значительного ускорения производительности вывода на своей архитектуре Blackwell, решая проблемы задержек, присущие авторегрессионным LLM.
NVIDIA представляет набор инструментов BioNeMo Agent Toolkit для облегчения создания ученых-искусственного интеллекта, способных читать научные статьи, писать код и генерировать гипотезы для открытий в области наук о жизни.
Телеком-операторы внедряют ИИ во все аспекты работы сетей, обслуживания клиентов и бэк-офисных процессов, однако большинство из них находятся лишь на ранних этапах пути к полной автономности. Текущие усилия по автоматизации обычно работают на уровнях 2–3 по таксономии TM Forum, фокусируясь на оптимизации заранее определенных решений в отдельных доменах.
SpaceX заключила третью сделку по аренде GPU с Reflection AI, что выводит её годовую выручку примерно до $28 млрд при расчётной ставке более $10 в час за GPU Blackwell. Эта оценка примерно вдвое превышает оценку Coreweave, что подчеркивает быстрый рост и высокую ценовую власть на рынке ИИ-инфраструктуры.
Этот пост на Reddit от пользователя Charuru содержит изображение под названием «Kimi и GLM в области передового кода». Материал служит визуальным справочником или поводом для обсуждения производительности моделей Kimi и GLM в задачах программирования.
Ainara — это десктопное приложение, ориентированное на локальное выполнение, от разработчика из Дублина, которое функционирует как ИИ-компаньон с сохранением контекста между сессиями. Оно позволяет пользователям переключаться между облачными моделями, такими как Grok, Claude и Gemini, или локальными моделями Ollama, сохраняя контекст без разрывов.
Инженер-симулятор ищет реальный опыт развертывания машинных суррогатов для снижения стоимости дорогостоящих запусков решателей вычислительной гидродинамики (CFD) и метода конечных элементов (FEA).
Исследователи выпустили Brain2Qwerty v2, неинвазивный AI-пайплайн, который декодирует предложения в реальном времени по данным магнитоэнцефалографии (MEG) без хирургических имплантатов. Система достигает общей точности на уровне слов 61% и до 78% у лучших участников, значительно превосходя предыдущие неинвазивные методы.
В новостях ИИ этой недели выделяются расширение программ кибербезопасности OpenAI, выпуск системой оркестрации Fugu от Sakana AI и растущее распространение модели с открытыми весами GLM-5.2.
В данном исследовании рассматривается онлайн-обучение с множествами действий, структурированными по сходству и закодированными корневыми деревьями, показывая, что стандартная одноточечная обратная связь не может использовать эти сходства. Авторы предлагают унифицированные алгоритмы для более богатых моделей обратной связи, которые заменяют количество действий на эффективное число с учётом сходства для улучшения границ регрета.