Мы все с чего-то начинаем
Разработчик с более чем 25-летним опытом в веб-технологиях переходит в инженерное направление по ИИ, чтобы выйти за рамки использования инструментов и понять, как их создавать.
Разработчик с более чем 25-летним опытом в веб-технологиях переходит в инженерное направление по ИИ, чтобы выйти за рамки использования инструментов и понять, как их создавать.
Пользователь сообщает, что его приватный Hugging Face Space, а именно 'Ark-kun/tangent', внезапно перестал работать и не может быть перезапущен. Попытки перезапуска или выполнения заводской сборки (factory rebuild) завершаются ошибкой "503. Something went wrong when restarting this Space".
NVIDIA представляет DFlash спекулятивное декодирование для значительного ускорения производительности вывода на своей архитектуре Blackwell, решая проблемы задержек, присущие авторегрессионным LLM.
NVIDIA представляет набор инструментов BioNeMo Agent Toolkit для облегчения создания ученых-искусственного интеллекта, способных читать научные статьи, писать код и генерировать гипотезы для открытий в области наук о жизни.
Телеком-операторы внедряют ИИ во все аспекты работы сетей, обслуживания клиентов и бэк-офисных процессов, однако большинство из них находятся лишь на ранних этапах пути к полной автономности. Текущие усилия по автоматизации обычно работают на уровнях 2–3 по таксономии TM Forum, фокусируясь на оптимизации заранее определенных решений в отдельных доменах.
SpaceX заключила третью сделку по аренде GPU с Reflection AI, что выводит её годовую выручку примерно до $28 млрд при расчётной ставке более $10 в час за GPU Blackwell. Эта оценка примерно вдвое превышает оценку Coreweave, что подчеркивает быстрый рост и высокую ценовую власть на рынке ИИ-инфраструктуры.
Этот пост на Reddit от пользователя Charuru содержит изображение под названием «Kimi и GLM в области передового кода». Материал служит визуальным справочником или поводом для обсуждения производительности моделей Kimi и GLM в задачах программирования.
Ainara — это десктопное приложение, ориентированное на локальное выполнение, от разработчика из Дублина, которое функционирует как ИИ-компаньон с сохранением контекста между сессиями. Оно позволяет пользователям переключаться между облачными моделями, такими как Grok, Claude и Gemini, или локальными моделями Ollama, сохраняя контекст без разрывов.
Инженер-симулятор ищет реальный опыт развертывания машинных суррогатов для снижения стоимости дорогостоящих запусков решателей вычислительной гидродинамики (CFD) и метода конечных элементов (FEA).
Исследователи выпустили Brain2Qwerty v2, неинвазивный AI-пайплайн, который декодирует предложения в реальном времени по данным магнитоэнцефалографии (MEG) без хирургических имплантатов. Система достигает общей точности на уровне слов 61% и до 78% у лучших участников, значительно превосходя предыдущие неинвазивные методы.
В новостях ИИ этой недели выделяются расширение программ кибербезопасности OpenAI, выпуск системой оркестрации Fugu от Sakana AI и растущее распространение модели с открытыми весами GLM-5.2.
В данном исследовании рассматривается онлайн-обучение с множествами действий, структурированными по сходству и закодированными корневыми деревьями, показывая, что стандартная одноточечная обратная связь не может использовать эти сходства. Авторы предлагают унифицированные алгоритмы для более богатых моделей обратной связи, которые заменяют количество действий на эффективное число с учётом сходства для улучшения границ регрета.
Исследователи предлагают GRINQH, фреймворк постобучающего квантования только весов, который ускоряет декодирование больших языковых моделей за счёт объединения квантования и разреженности. Метод динамически назначает каналы весов разным уровням точности на основе величин активаций, решая проблему ограниченности памяти на этапе декодирования.
Пользователь Reddit спрашивает о вариантах использования старого сервера IBM System X V4, оснащённого двумя процессорами Xeon E5-2640 и 192 ГБ ОЗУ DDR3 ECC для больших языковых моделей.
Пользователь на r/LocalLLaMA спрашивает, как сократить примерно 10-секундное время обработки системного промпта длиной в 7.1k токенов для каждой новой сессии при использовании Ornith 35b с llama.cpp.
Пользователь Reddit предлагает возможность обучения больших языковых моделей распознаванию конкретного секретного предложения, которое активирует вредоносное поведение, что вызывает опасения относительно рисков безопасности как для закрытых, так и для моделей с открытым исходным кодом.
Пост в сообществе r/LocalLLaMA на Reddit обсуждает изображение, предполагающее, что официальный запуск Deepseek V4 состоится в середине июля и будет сопровождаться изменениями в структуре ценообразования API.
Форк llama.cpp внедряет флаг --skip-layers, который позволяет пользователям пропускать целые блоки трансформера на этапе загрузки, предлагая альтернативу или дополнение к квантованию для размещения моделей в условиях ограниченного оборудования.
Пользователь Reddit ищет советы о наиболее эффективном методе тестирования производительности моделей на различных уровнях квантования перед покупкой нового оборудования.
Выпуск llama.cpp b9840 вводит поддержку конвертации для модели DeepSeek V4, включая специальную обработку варианта Pro. Это обновление интегрирует новую архитектуру в библиотеку наряду с различными внутренними оптимизациями и исправлениями ошибок.