Тема · Multimodal
arxiv arXiv cs.AI · 11 д назад

FusionRS: Первый масштабный датасет RGB-инфракрасного дистанционного зондирования

FusionRS представляет первый масштабный датасет RGB-инфракрасно-текстового типа для моделирования визуально-языковых моделей дистанционного зондирования. Он синхронизирует RGB и инфракрасные изображения с инфракрасно-осознанными описаниями, позволяя использовать двумодальные визуально-языковые основные модели. Эксперименты показывают улучшение синхронизации RGB-инфракрасных изображений, поиска и описания, при этом исследования с устранением факторов подтверждают критическую роль модальности-специфического текстового надзора.

arxiv arXiv cs.LG · 11 д назад

CrossMaps: Семантическая картирование с учетом уверенности для навигации ровера

CrossMaps — это реальное время, с учетом уверенности, семантическое картирование, которое использует данные RGB-D для создания карт, доступных для запросов на языке. Оно интегрирует многомасштабные векторные вложения CLIP с архитектурой двойной памяти — краткосрочной и долгосрочной памяти — для агрегации визуальных наблюдений и стимулирования согласованных, уверенных ячеек как постоянных семантических ориентиров. Система позволяет использовать естественные языковые запросы для направления навигации ровера через семантические тепловые карты.

arxiv arXiv cs.LG · 11 д назад

Многоцентровый бенчмарк для диагностики заболеваний брюшной полости на не Contrast CT

Новый многоцентровый бенчмарк позволяет диагностировать заболевания брюшной полости и генерировать отчеты на основе не контрастного КТ, синтезируя данные контрастного усиления. В наборе данных представлены парные исследования NCCT-CECT и отчеты из двух центров, демонстрируя, что NCCT достигает средних значений AUC по многим органам на внутреннем тестировании 69,1% и на внешнем тестировании 63,1%. Бенчмарк и код опубликованы для поддержки исследований в области безопасных, без контрастных протоколов абдоминальной визуализации.

arxiv arXiv cs.LG · 11 д назад

Фильтрованные конформные эллипсоиды для граф-ориентированных временных рядов

Новый метод, называемый фильтрованными конформными эллипсоидами, обеспечивает прогнозные множества для многомерных временных рядов, используя замороженный фильтр состояния для генерации прогнозных средних значений и ковариаций, а затем применяя раздельную конформную калибровку к оценкам Махаланобиса. Метод обеспечивает покрытие при наличии зависимости за счёт сжатия в квоте предиктивного закона, с теоретическими границами, полученными при условиях гауссовой проекции и наблюдаемости, и демонстрирует более тонкие эллипсоиды на граф-ориентированных тестах трафика по сравнению с статическими и нефильтрованными базовыми методами.

arxiv arXiv cs.LG · 11 д назад

Математический обзор анализа пространства форм в машинном обучении

Настоящий обзор представляет математическую структуру для анализа геометрических данных, объединяющую дифференциальную геометрию, статистику и машинное обучение. В нем описывается единый поток для представления форм, геодезических метрик, статистического анализа и обучения с геометрическим учетом, позволяющий изучать вариабельность форм и структурные траектории в популяциях и во времени. Применения охватывают биологию, медицину, антропологию и компьютерное зрение, подчеркивая трудности в обработке нелинейных и несогласованных геометрических вариаций.