Что случилось с Petals (децентрализованными выводами) от BigScience?
Предоставленный исходный контент представляет собой ссылку на публикацию в Reddit и не содержит текста статьи или деталей обсуждения.
Предоставленный исходный контент представляет собой ссылку на публикацию в Reddit и не содержит текста статьи или деталей обсуждения.
Пользователь Reddit предлагает OpenAI запустить мощную модель с открытым исходным кодом, названную GPT-OSS-2, совпавшую по времени с предстоящим IPO Anthropic.
Разработчик выпустил оптимизированную реализацию на C++ для Qwen3-TTS, обеспечивающую скорость около 5x в реальном времени на RTX 5080, а также кроссплатформенный десктопный GUI, созданный с помощью Kotlin Compose Multiplatform. Проект предоставляет инференс на базе GGML, поддерживающий выполнение как на CPU, так и на CUDA в Windows и Linux.
Исследование количественно оценивает структурный штраф за токенизацию, с которым сталкиваются африканские языки в коммерческих больших языковых моделях, показывая, что пользователи платят больше и испытывают большую задержку из-за неэффективного назначения подслов. Для 20 африканских языков и 11 передовых токенизаторов каждый протестированный язык имеет премию по сравнению с английским, медианные затраты достигают 1,88 раза от английского и до 8,92 раза для скрипта Нко.
Авторы предлагают CompressKV — фреймворк, который сжимает ключ-значения (key-value) кэши в больших языковых моделях на основе GQA, выявляя семантические поисковые головы для сохранения критически важных токенов. Этот подход решает проблему снижения производительности, вызванного существующими эвристическими методами вытеснения, которые игнорируют различные функции голов внимания.
В этой статье описан лаконичный метод подсчёта открытых вкладок браузера в Safari с помощью AppleScript. Предоставленная команда выполняется через терминал для получения общего количества вкладок во всех окнах.
В репозиторий llama.cpp объединён pull request, поддерживающий DeepSeek V4, что позволяет пользователям запускать модель локально.
Пользователь Reddit описывает исчерпывающий список программного обеспечения и моделей для офлайн-хранения, чтобы сохранить доступ к возможностям локального ИИ в случае широких интернет-ограничений или запретов. Предлагаемый набор сосредоточен на сохранении необходимых инструментов, операционных систем и весов моделей для обеспечения работоспособности без внешних зависимостей.
Проект UCTF был реорганизован из единого предложения в открытую, основанную на проверке гипотез исследовательскую программу для изучения того, могут ли машинно-нативные промежуточные представления снизить перекрестное языковое семантическое избыточное содержание при обучении многоязычных ИИ.
Пользователь сообщает о возникновении ошибки при попытке сгенерировать сертификат об окончании курса Deep RL на Hugging Face. Проблема сохраняется, несмотря на ввод требуемых данных имени пользователя и полного имени, при этом в интернете отсутствует какая-либо существующая инструкция.
В статье представлен DiScoFormer, унифицированная модель-трансформер, способная выполнять задачи оценки плотности и генерации на основе оценок в различных распределениях данных.
Эксперт Google объясняет концепцию применения полного стека в искусственном интеллекте. В статье подчеркивается, что этот комплексный подход на протяжении длительного времени служил основой для работ Google в области ИИ.
В этой статье представлен непрерывный Латентный мост, который связывает замороженные реактивные и рассуждающие модели зрения и языка, чтобы обеспечить работу игровых агентов в реальном времени с миллисекундной задержкой и долгосрочным планированием. Проецируя остаточные сигналы медленной модели в пространство входных эмбеддингов быстрой модели, он избегает текстовых циклов, сохраняя или превосходя традиционные Текстовые мосты по производительности.
Авторы предлагают G$^3$VLA, модуль геометрической осведомленности о камере, который внедряет калиброванную структуру в поток визуальных токенов предварительно обученных моделей Vision-Language-Action, не изменяя их пространство действий или цель имитации. Этот подход сочетает внутренние условия с лучевыми эмбеддингами, проективным позиционным кодированием и двунаправленной кросс-видовой фьюзией для устранения несоответствия между 2D координатами изображения и геометрией камеры робота.
В статье представлен video-SALMONN-R$^3$, сквозная большая языковая модель для видео, которая обеспечивает эффективное повторное просмотр сегментов видео с использованием обучения с подкреплением без опоры на данные цепочки рассуждений (chain-of-thought). Этот подход решает проблемы вычислительных ограничений и ограничений памяти, которые обычно заставляют модели использовать пониженную частоту кадров и пространственное разрешение.
В данной статье представлен новый подход к оптимизации траекторий беспилотных летательных аппаратов (БПЛА) в сотовых системах 6G за счет интеграции улучшенного непрерывного трансферного обучения в архитектуру O-RAN. Система использует библиотеку предварительно обученных моделей и механизм выбора для минимизации времени адаптации при работе в динамичной среде.
Авторы предлагают RetiSEM — фреймворк структурного уравнения моделирования с ограничениями по домену, предназначенный для восстановления каузальных графов и проведения медиационного анализа на основе фрагментированных биомедицинских данных с ограниченными мультимодальными ресурсами. Метод организует переменные в блоки, информированные биологией, и применяет ограничения на запрещённые рёбра для декомпозиции эффектов на уровне путей.
В данной работе представлен первый глубокий анализ безопасности широко используемых агентных систем для операций наступательной кибербезопасности, выявляющий общие архитектурные недостатки, позволяющие злоумышленникам эксфильтровать API-ключи и компрометировать машины операторов даже внутри песочниц.
CrossPool — это движок обслуживания, предназначенный для холодных моделей Mixture-of-Experts (MoE), который разделяет веса FFN и KV-кэш на отдельные пулы памяти GPU для устранения неэффективности использования памяти в сценариях разреженных запросов. За счёт консолидации статических весов и динамического выделения ресурсов под активный спрос на KV-кэш система стремится повысить утилизацию памяти GPU и поддерживать всплесковые запросы с длинным контекстом.
Специальный рецепт квантования, применённый к модели HuiHui с удалёнными ограничениями, демонстрирует превосходные результаты по сравнению с базовой версией 3.6-35B-a3b в задачах математики и программирования. Результаты указывают на то, что удаление механизмов отказа позволяет модели достигать большей точности и мудрости в этих областях.