Все статьи
lab NVIDIA Technical Blog · 2 д назад

Создайте ученого-искусственного интеллекта для открытий в области наук о жизни с помощью набора инструментов NVIDIA BioNeMo Agent

NVIDIA представляет набор инструментов BioNeMo Agent Toolkit для облегчения создания ученых-искусственного интеллекта, способных читать научные статьи, писать код и генерировать гипотезы для открытий в области наук о жизни.

lab NVIDIA Technical Blog · 2 д назад

Как телеком-операторы строят автономные сети с помощью агентного ИИ

Телеком-операторы внедряют ИИ во все аспекты работы сетей, обслуживания клиентов и бэк-офисных процессов, однако большинство из них находятся лишь на ранних этапах пути к полной автономности. Текущие усилия по автоматизации обычно работают на уровнях 2–3 по таксономии TM Forum, фокусируясь на оптимизации заранее определенных решений в отдельных доменах.

media Latent Space · 2 д назад

Доход Neocloud от SpaceX достигает $28 млрд в год на фоне обновлений OpenAI и Sakana

SpaceX заключила третью сделку по аренде GPU с Reflection AI, что выводит её годовую выручку примерно до $28 млрд при расчётной ставке более $10 в час за GPU Blackwell. Эта оценка примерно вдвое превышает оценку Coreweave, что подчеркивает быстрый рост и высокую ценовую власть на рынке ИИ-инфраструктуры.

arxiv arXiv cs.LG · 2 д назад

Использование сходств в многоручных бандитах

В данном исследовании рассматривается онлайн-обучение с множествами действий, структурированными по сходству и закодированными корневыми деревьями, показывая, что стандартная одноточечная обратная связь не может использовать эти сходства. Авторы предлагают унифицированные алгоритмы для более богатых моделей обратной связи, которые заменяют количество действий на эффективное число с учётом сходства для улучшения границ регрета.

arxiv arXiv cs.LG · 2 д назад

GRINQH: Иерархия квантования на основе градации входных данных для эффективной генерации LLM

Исследователи предлагают GRINQH, фреймворк постобучающего квантования только весов, который ускоряет декодирование больших языковых моделей за счёт объединения квантования и разреженности. Метод динамически назначает каналы весов разным уровням точности на основе величин активаций, решая проблему ограниченности памяти на этапе декодирования.

arxiv arXiv cs.LG · 2 д назад

LoadKAN: Интерпретируемая сеть Колмогорова-Арнольда для прогнозирования нагрузки на электроэнергию

В данном исследовании представлена LoadKAN, новая гибридная архитектура, сочетающая механизм временного внимания с изоляцией признаков и сеть Колмогорова-Арнольда (KAN) для решения проблемы недостаточной интерпретируемости в прогнозировании нагрузки на электроэнергию на основе глубокого обучения.

arxiv arXiv cs.LG · 2 д назад

STAITUS: Разделение внешнего вида и позы для отслеживания объектов на видео

В статье представлен STAITUS — унифицированная система для обучения без учителя при отслеживании объектов на видео, которая устраняет ограничения существующих слотовых представлений за счёт явного разделения внешнего вида и геометрической позы. Применяя временное выравнивание только в пространстве признаков (appearance space) и обеспечивая пространственное разделение внутри кадров, метод предотвращает «застревание» слотов на статичном фоне при движении.

arxiv arXiv cs.LG · 2 д назад

Что знает химическая языковая модель о молекулах?

В данном исследовании применяются разреженные автоэнкодеры к MolFormer для механистического изучения того, как строятся представления молекул на разных слоях, что ставит под сомнение предположение о том, что химические языковые модели изучают только поверхностный синтаксис.

arxiv arXiv cs.LG · 2 д назад

SkyJEPA: Обучение долгосрочных моделей мира для бесконтактного переноса из симуляции в реальность при управлении квадрокоптерами

В данной работе представлена SkyJEPA — модель в стиле JEPA, разработанная для управления квадрокоптерами в реальном времени и решающая проблемы усиления ошибок, присущие авторегрессионному долгосрочному прогнозированию. Подход объединяет модель латентной динамики с физически мотивированным пробером для отображения замороженных латентных переменных в интерпретируемые состояния, что обеспечивает предсказания, основанные на физических принципах.

arxiv arXiv cs.LG · 2 д назад

Свёрнутые эффективные операторы для структур высшего порядка

Авторы представляют метод Свёрнутых эффективных операторов (Collapsed Effective Operators), который сжимает степени свободы высшего порядка в единый вершинный оператор с помощью дополнения Шура градуированного лапласиана. Этот подход даёт плотный оператор, кодирующий дальнодействующие взаимодействия, опосредованные топологией, и применим к произвольным конструкциям высшего порядка.

arxiv arXiv cs.LG · 2 д назад

Селективное прогнозирование временных рядов с помощью метабучения

В данной статье представлен фреймворк селективного прогнозирования, который позволяет моделям воздерживаться от высокорисковых предсказаний путем моделирования эмпирического перцентиля ошибок прогнозирования через метабучение. Используя инвариантные к масштабу статистики, полученные из недавних лагов, метод разделяет решения об отказе от прогноза и сами прогнозы, что обеспечивает перенос между гетерогенными временными рядами.

arxiv arXiv cs.LG · 2 д назад

Улавливают ли кодировщики локаций пространственные эффекты? Бенчмарк GeoShapley на разных масштабах

В данном исследовании проводится бенчмарк того, может ли GeoShapley, объяснитель на основе теории игр, восстанавливать пространственно изменяющиеся коэффициенты из моделей машинного обучения с использованием эмбеддингов кодировщиков локаций. Одиннадцать кодировщиков из фреймворка TorchSpatial были оценены на синтетическом процессе с известными коэффициентами в масштабах сетки, округа и глобальном.

arxiv arXiv cs.LG · 2 д назад

Классификация временных рядов с помощью диффеоморфного выравнивания времени (DiffTW)

В статье представлен диффеоморфное выравнивание времени (DiffTW), теоретическая основа для классификации временных рядов, которая учит отображения между вещественнозначными функциями, чтобы преодолеть ограничения дискретного сопоставления точек динамического выравнивания времени (DTW). DiffTW аппроксимирует диффеоморфные преобразования с помощью метода характеристик для решения линейных уравнений переноса, обеспечивая теоретически обоснованную меру несовпадения.

arxiv arXiv cs.LG · 2 д назад

Глубокие нейронные сети с сублинейной структурой обеспечивают согласованность обучения признаков для композиционных функций

В данном исследовании установлены гарантии согласованности обучения признаков для широкого подкласса глубоких нейронных сетей, характеризующихся сублинейным ростом входных/выходных размерностей и количества скрытых нейронов относительно размера выборки. Авторы доказывают, что такие архитектуры обеспечивают универсальную аппроксимацию для иерархически композиционных функций, даже в рамках традиционного режима избыточной параметризации, где количество параметров превышает количество обучающих примеров.

arxiv arXiv cs.LG · 2 д назад

TROPT: Открытая платформа для унификации и развития дискретной оптимизации текста

TROPT представлен как первая открытая платформа, объединяющая оптимизацию текстовых триггеров путем стандартизации выполнения и разработки в едином интерфейсе. Она решает проблему фрагментации, позволяя пользователям настраивать сквозные рецепты оптимизации с помощью взаимозаменяемых моделей, целевых функций и оптимизаторов.

arxiv arXiv cs.LG · 2 д назад

FLKit: структурированный инструмент онбординга для федеративного обучения в здравоохранении

FLKit — это открытый, поддерживаемый сообществом инструмент онбординга, предназначенный для помощи междисциплинарным командам в прохождении жизненного цикла федеративного обучения в исследованиях в области здравоохранения и наук о жизни. Он предоставляет ориентированные на роли точки входа для клинических специалистов, юристов, экспертов по управлению и технических участников, устраняя практические барьеры, связанные с разрозненными фреймворками и обязательствами по управлению.

arxiv arXiv cs.LG · 2 д назад

FairBED: Байесовский подход к экспериментальному дизайну для сбора более справедливых данных

В статье представлен FairBED — фреймворк, который изменяет сам процесс сбора данных, чтобы получать изначально более справедливые данные, устраняя предвзятость, присутствующую в существующих наборах данных. Он предлагает новые формулировки для количественной оценки справедливости наборов данных на основе принципа, согласно которому справедливые наборы данных не должны содержать информации о чувствительных атрибутах.

arxiv arXiv cs.LG · 3 д назад

Concordia: JIT-компилируемая постоянная ядро-ориентированная контрольная точка для отказоустойчивого вывода LLM

В данной статье представлена Concordia, среда выполнения, предназначенная для обеспечения отказоустойчивости долгоживущих агентов LLM за счет сохранения ценного состояния на GPU без перезапуска стека обслуживания. Система использует постоянное ядро, residing на устройстве, которое перехватывает загрузку модулей GPU для поддержки инструментирования на уровне PTX и SASS.

arxiv arXiv cs.LG · 3 д назад

Оценка транспортных потоков без моделирования на основе разреженных данных подсчёта

Авторы предлагают метод оценки изменяющихся во времени паттернов транспортных потоков по разреженным агрегированным данным подсчёта транспортных средств путём разделения изучаемой области и решения задачи оптимизации взвешенного метода наименьших квадратов. Этот подход использует матрицу взвешенного вклада для кодирования покрытия датчиками, направляя оптимизатор к конфигурациям потоков, которые непосредственно наблюдаемы.