DiScoFormer: один трансформер для плотности и оценки, по распределениям
В статье представлен DiScoFormer, унифицированная модель-трансформер, способная выполнять задачи оценки плотности и генерации на основе оценок в различных распределениях данных.
В статье представлен DiScoFormer, унифицированная модель-трансформер, способная выполнять задачи оценки плотности и генерации на основе оценок в различных распределениях данных.
Эксперт Google объясняет концепцию применения полного стека в искусственном интеллекте. В статье подчеркивается, что этот комплексный подход на протяжении длительного времени служил основой для работ Google в области ИИ.
В этой статье представлен непрерывный Латентный мост, который связывает замороженные реактивные и рассуждающие модели зрения и языка, чтобы обеспечить работу игровых агентов в реальном времени с миллисекундной задержкой и долгосрочным планированием. Проецируя остаточные сигналы медленной модели в пространство входных эмбеддингов быстрой модели, он избегает текстовых циклов, сохраняя или превосходя традиционные Текстовые мосты по производительности.
Авторы предлагают G$^3$VLA, модуль геометрической осведомленности о камере, который внедряет калиброванную структуру в поток визуальных токенов предварительно обученных моделей Vision-Language-Action, не изменяя их пространство действий или цель имитации. Этот подход сочетает внутренние условия с лучевыми эмбеддингами, проективным позиционным кодированием и двунаправленной кросс-видовой фьюзией для устранения несоответствия между 2D координатами изображения и геометрией камеры робота.
В статье представлен video-SALMONN-R$^3$, сквозная большая языковая модель для видео, которая обеспечивает эффективное повторное просмотр сегментов видео с использованием обучения с подкреплением без опоры на данные цепочки рассуждений (chain-of-thought). Этот подход решает проблемы вычислительных ограничений и ограничений памяти, которые обычно заставляют модели использовать пониженную частоту кадров и пространственное разрешение.
В данной статье представлен новый подход к оптимизации траекторий беспилотных летательных аппаратов (БПЛА) в сотовых системах 6G за счет интеграции улучшенного непрерывного трансферного обучения в архитектуру O-RAN. Система использует библиотеку предварительно обученных моделей и механизм выбора для минимизации времени адаптации при работе в динамичной среде.
Авторы предлагают RetiSEM — фреймворк структурного уравнения моделирования с ограничениями по домену, предназначенный для восстановления каузальных графов и проведения медиационного анализа на основе фрагментированных биомедицинских данных с ограниченными мультимодальными ресурсами. Метод организует переменные в блоки, информированные биологией, и применяет ограничения на запрещённые рёбра для декомпозиции эффектов на уровне путей.
В данной работе представлен первый глубокий анализ безопасности широко используемых агентных систем для операций наступательной кибербезопасности, выявляющий общие архитектурные недостатки, позволяющие злоумышленникам эксфильтровать API-ключи и компрометировать машины операторов даже внутри песочниц.
CrossPool — это движок обслуживания, предназначенный для холодных моделей Mixture-of-Experts (MoE), который разделяет веса FFN и KV-кэш на отдельные пулы памяти GPU для устранения неэффективности использования памяти в сценариях разреженных запросов. За счёт консолидации статических весов и динамического выделения ресурсов под активный спрос на KV-кэш система стремится повысить утилизацию памяти GPU и поддерживать всплесковые запросы с длинным контекстом.
Специальный рецепт квантования, применённый к модели HuiHui с удалёнными ограничениями, демонстрирует превосходные результаты по сравнению с базовой версией 3.6-35B-a3b в задачах математики и программирования. Результаты указывают на то, что удаление механизмов отказа позволяет модели достигать большей точности и мудрости в этих областях.
Этот пост на Reddit содержит изображение с цитатой «Модели с открытым исходным кодом съедят ваших детей», приписываемой Амоди. Содержание включает ссылку на изображение и ссылку на связанную ветку комментариев в r/LocalLLaMA.
Дарио Амодеи, генеральный директор Anthropic, выразил обеспокоенность тем, что открытые ИИ-модели могут привести к опасным последствиям. В заявлении подчеркиваются потенциальные риски, связанные с неограниченным доступом к передовым технологиям искусственного интеллекта.
В статье обсуждаются причины, по которым показатели масштабирования современных приложений на основе больших языковых моделей указывают на неустойчивый режим с точки зрения энергоресурсов.
В данном исследовании проводится тщательная переоценка девяти недавних графовых фундаментальных моделей (GFMs) для предсказания свойств узлов, сравнивая их с сильными базовыми моделями графовых нейронных сетей (GNN), чтобы устранить отсутствие единых стандартов оценки в этой области.
Исследователи представляют RaDaR — открытую 32B параметр reasoning large language model, предназначенную для ускорения диагностики редких заболеваний за счет решения проблем клинической внедряемости и нехватки данных. Модель обучена на почти 50 000 публичных случаях и более чем 100 000 синтетических случаев, демонстрируя превосходные результаты по бенчмаркам и во внешних валидационных центрах.
Авторы предлагают фреймворк тонкой настройки на основе обучения с подкреплением, который использует автономную оценку на основе зрительно-языковых моделей в качестве масштабируемого сигнала надзора для агентов графического интерфейса, устраняя необходимость в ручных метках или эвристиках, специфичных для задач. Рассматривая обратную связь от оценщика как зашумленный бинарный канал вознаграждения и выводя оценщик с коррекцией шума для Proximal Policy Optimization, метод решает проблему получения машиночитаемых вознаграждений в открытых настольных средах.
Авторы представляют AdversaBench, конвейер красного тестирования от начала до конца, который генерирует сложные входные данные для больших языковых моделей с использованием пяти структурированных операторов мутации и подтверждает сбои через трехсудейскую панель с судьей-арбитром.
В Соединенных Штатах подан иск против крупных производителей чипов памяти Samsung, SK hynix и Micron в связи с обвинениями в сговоре о ценах.
DeepReinforce выпустила Ornith-1.0, модель с открытыми весами под лицензией MIT, которая демонстрирует лучшие результаты среди моделей с открытым исходным кодом сопоставимого размера на бенчмарках по программированию. Модель построена на базе предварительно обученных Gemma 4 и Qwen 3.5 и включает варианты с количеством параметров: 9B Dense, 31B Dense, 35B MoE и 397B MoE.
Исследователь, подающий свою первую статью в arXiv, сообщает, что рукопись находится на рассмотрении модераторов уже два месяца, несмотря на прохождение автоматических проверок квалификации. Автор спрашивает, является ли такая задержка нормальной, и просит совета: стоит ли подавать работу повторно или продолжать ждать.