Все статьи — korshunov.ai

Все статьи Страница 1 / 120

Что случилось с Petals (децентрализованными выводами) от BigScience?

Предоставленный исходный контент представляет собой ссылку на публикацию в Reddit и не содержит текста статьи или деталей обсуждения.

media r/LocalLLaMA · 3 ч назад

Пользователь Reddit предлагает OpenAI выпустить GPT-OSS-2 для противодействия IPO Anthropic

Пользователь Reddit предлагает OpenAI запустить мощную модель с открытым исходным кодом, названную GPT-OSS-2, совпавшую по времени с предстоящим IPO Anthropic.

media r/LocalLLaMA · 3 ч назад

Qwen3-tts.cpp и графический интерфейс Compose Desktop для локального синтеза речи

Разработчик выпустил оптимизированную реализацию на C++ для Qwen3-TTS, обеспечивающую скорость около 5x в реальном времени на RTX 5080, а также кроссплатформенный десктопный GUI, созданный с помощью Kotlin Compose Multiplatform. Проект предоставляет инференс на базе GGML, поддерживающий выполнение как на CPU, так и на CUDA в Windows и Linux.

arxiv arXiv cs.AI · 4 ч назад

Африканский языковой налог: количественная оценка стоимости, задержки и контекстного штрафа при токенизации африканских языков в передовых LLM

Исследование количественно оценивает структурный штраф за токенизацию, с которым сталкиваются африканские языки в коммерческих больших языковых моделях, показывая, что пользователи платят больше и испытывают большую задержку из-за неэффективного назначения подслов. Для 20 африканских языков и 11 передовых токенизаторов каждый протестированный язык имеет премию по сравнению с английским, медианные затраты достигают 1,88 раза от английского и до 8,92 раза для скрипта Нко.

arxiv arXiv cs.AI · 4 ч назад

CompressKV: Сжатие KV-кэша, направляемое семантическим поиском, для ресурсоэффективного вывода длинноконтекстных LLM

Авторы предлагают CompressKV — фреймворк, который сжимает ключ-значения (key-value) кэши в больших языковых моделях на основе GQA, выявляя семантические поисковые головы для сохранения критически важных токенов. Этот подход решает проблему снижения производительности, вызванного существующими эвристическими методами вытеснения, которые игнорируют различные функции голов внимания.

blog Simon Willison · 4 ч назад

Подсчёт количества вкладок в Safari

В этой статье описан лаконичный метод подсчёта открытых вкладок браузера в Safari с помощью AppleScript. Предоставленная команда выполняется через терминал для получения общего количества вкладок во всех окнах.

media r/LocalLLaMA · 4 ч назад

PR DeepSeek V4 объединён с llama.cpp

В репозиторий llama.cpp объединён pull request, поддерживающий DeepSeek V4, что позволяет пользователям запускать модель локально.

media r/LocalLLaMA · 4 ч назад

Предлагаемые компоненты для полного автономного набора локального ИИ

Пользователь Reddit описывает исчерпывающий список программного обеспечения и моделей для офлайн-хранения, чтобы сохранить доступ к возможностям локального ИИ в случае широких интернет-ограничений или запретов. Предлагаемый набор сосредоточен на сохранении необходимых инструментов, операционных систем и весов моделей для обеспечения работоспособности без внешних зависимостей.

media Hugging Face Forums · 4 ч назад

Проект UCTF: Открытая исследовательская программа по машинно-нативным представлениям для обучения ИИ

Проект UCTF был реорганизован из единого предложения в открытую, основанную на проверке гипотез исследовательскую программу для изучения того, могут ли машинно-нативные промежуточные представления снизить перекрестное языковое семантическое избыточное содержание при обучении многоязычных ИИ.

media Hugging Face Forums · 4 ч назад

Ошибка при генерации сертификата курса по глубокому обучению с подкреплением

Пользователь сообщает о возникновении ошибки при попытке сгенерировать сертификат об окончании курса Deep RL на Hugging Face. Проблема сохраняется, несмотря на ввод требуемых данных имени пользователя и полного имени, при этом в интернете отсутствует какая-либо существующая инструкция.

lab Hugging Face Blog · 4 ч назад

DiScoFormer: один трансформер для плотности и оценки, по распределениям

В статье представлен DiScoFormer, унифицированная модель-трансформер, способная выполнять задачи оценки плотности и генерации на основе оценок в различных распределениях данных.

lab Google — The Keyword (AI) · 4 ч назад

Спросите эксперта по ИИ: что именно такое полный стек?

Эксперт Google объясняет концепцию применения полного стека в искусственном интеллекте. В статье подчеркивается, что этот комплексный подход на протяжении длительного времени служил основой для работ Google в области ИИ.

arxiv arXiv cs.AI · 5 ч назад

Латентный мост: непрерывный медленный-быстрый канал для игровых агентов в реальном времени

В этой статье представлен непрерывный Латентный мост, который связывает замороженные реактивные и рассуждающие модели зрения и языка, чтобы обеспечить работу игровых агентов в реальном времени с миллисекундной задержкой и долгосрочным планированием. Проецируя остаточные сигналы медленной модели в пространство входных эмбеддингов быстрой модели, он избегает текстовых циклов, сохраняя или превосходя традиционные Текстовые мосты по производительности.

arxiv arXiv cs.AI · 5 ч назад

G$^3$VLA: Геометрический индуктивный предубеждение для моделей Vision-Language-Action

Авторы предлагают G$^3$VLA, модуль геометрической осведомленности о камере, который внедряет калиброванную структуру в поток визуальных токенов предварительно обученных моделей Vision-Language-Action, не изменяя их пространство действий или цель имитации. Этот подход сочетает внутренние условия с лучевыми эмбеддингами, проективным позиционным кодированием и двунаправленной кросс-видовой фьюзией для устранения несоответствия между 2D координатами изображения и геометрией камеры робота.

arxiv arXiv cs.AI · 5 ч назад

video-SALMONN-R3: Эффективное понимание видео с помощью обучения с подкреплением

В статье представлен video-SALMONN-R$^3$, сквозная большая языковая модель для видео, которая обеспечивает эффективное повторное просмотр сегментов видео с использованием обучения с подкреплением без опоры на данные цепочки рассуждений (chain-of-thought). Этот подход решает проблемы вычислительных ограничений и ограничений памяти, которые обычно заставляют модели использовать пониженную частоту кадров и пространственное разрешение.

arxiv arXiv cs.AI · 5 ч назад

Адаптивная система машинного обучения для оптимизации траекторий БПЛА в O-RAN

В данной статье представлен новый подход к оптимизации траекторий беспилотных летательных аппаратов (БПЛА) в сотовых системах 6G за счет интеграции улучшенного непрерывного трансферного обучения в архитектуру O-RAN. Система использует библиотеку предварительно обученных моделей и механизм выбора для минимизации времени адаптации при работе в динамичной среде.

arxiv arXiv cs.AI · 5 ч назад

RetiSEM: Обобщение каузальных моделей для фрагментированных биомедицинских данных

Авторы предлагают RetiSEM — фреймворк структурного уравнения моделирования с ограничениями по домену, предназначенный для восстановления каузальных графов и проведения медиационного анализа на основе фрагментированных биомедицинских данных с ограниченными мультимодальными ресурсами. Метод организует переменные в блоки, информированные биологией, и применяет ограничения на запрещённые рёбра для декомпозиции эффектов на уровне путей.

arxiv arXiv cs.AI · 5 ч назад

Краснокомандная проверка агентных систем

В данной работе представлен первый глубокий анализ безопасности широко используемых агентных систем для операций наступательной кибербезопасности, выявляющий общие архитектурные недостатки, позволяющие злоумышленникам эксфильтровать API-ключи и компрометировать машины операторов даже внутри песочниц.

arxiv arXiv cs.AI · 5 ч назад

CrossPool: Эффективная совместная работа нескольких LLM для холодных моделей MoE за счёт разделения пулов весов и KV-кэша

CrossPool — это движок обслуживания, предназначенный для холодных моделей Mixture-of-Experts (MoE), который разделяет веса FFN и KV-кэш на отдельные пулы памяти GPU для устранения неэффективности использования памяти в сценариях разреженных запросов. За счёт консолидации статических весов и динамического выделения ресурсов под активный спрос на KV-кэш система стремится повысить утилизацию памяти GPU и поддерживать всплесковые запросы с длинным контекстом.

media r/LocalLLaMA · 5 ч назад

Модель HuiHui с удалёнными ограничениями превосходит базовую 3.6-35B-a3b в задачах по математике и коду

Специальный рецепт квантования, применённый к модели HuiHui с удалёнными ограничениями, демонстрирует превосходные результаты по сравнению с базовой версией 3.6-35B-a3b в задачах математики и программирования. Результаты указывают на то, что удаление механизмов отказа позволяет модели достигать большей точности и мудрости в этих областях.