Multimodal — korshunov.ai — новости ML

Multimodal Страница 4 / 8

See-and-Reach: Vision-Language Navigation for UAVs in Field of View

UAV-VLN-FOV isolates the see-and-reach stage for precise evaluation of UAV navigation. 3DG-VLN enhances visual grounding and spatial alignment using dynamic 3D direction cues, achieving a 13.82% success rate improvement over baselines and validated in real-world trials.

arxiv arXiv cs.AI · 6 д назад

Скрытая эволюция скрытого визуального контекста в моделях с визуальным языком

Визуальные токены поступают в большие языковые модели в виде первичных, неструктурированных сигналов. Их внутреннее преобразование и интеграция зависят от архитектуры — либо как встроенные контекстные запросы, либо как вводимые в промежуточные слои — что приводит к различным путям эволюции визуальных представлений и характеристик частоты. Мы обнаруживаем, что внимание само по себе недостаточно; производительность определяется качеством визуальных представлений на каждом слое в различных схемах интеграции.

arxiv arXiv cs.AI · 6 д назад

IHUBERT: Монолингвальный персийский предобученный модель с семантической дедупликацией

IHUBERT — это монолингвальный персийский предобученный язык-модель, обученная на отобранных 45 ГБ из коллекции Sepahr-Danesh. Модель использует векторную семантическую дедупликацию и пайплайн предобучения с балансировкой доменов для улучшения качества корпуса и снижения дублирования, достигая лучших результатов в извлечении ответов на вопросы и хороших результатов в распознавании сущностей и классификации тем, хотя распознавание связей остаётся сложной задачей.

arxiv arXiv cs.AI · 6 д назад

Двухагентная архитектура для проверенной перевода между моделями

Двухагентная архитектура преобразует протоколы экспериментов на естественном языке в исполняемые команды для платформ роботизированных лабораторий. Она использует агента парсера и движок отображения на основе правил для перевода протоколов, при этом агент проверки с использованием гетерогенной нейросети обеспечивает точность и запускает самокоррекцию. Архитектура успешно позволяет реализовывать автономное выполнение экспериментов на микроплашках, таких как тест Брадфорда.

arxiv arXiv cs.AI · 6 д назад

Частотно-осознанное совпадение потоков для генерации действий робота

Частотно-осознанное совпадение потоков (FAFM) обеспечивает непрерывную и временно согласованную генерацию действий робота за счет преобразования дискретных последовательностей действий в частотную область с помощью дискретного косинусного преобразования. Оно регулирует первые временные производные с помощью ограничения типа Соболева для обеспечения плавных действий, повышая вероятность успеха, плавность движений и устойчивость при выполнении синтетических и реальных задач без добавления параметров в сеть.

arxiv arXiv cs.AI · 6 д назад

BIM-Edit: Оценка LLM для редактирования BIM на основе IFC

BIM-Edit представляет бенчмарк для оценки больших языковых моделей на редактировании с помощью естественного языка строительных информационных моделей в формате IFC. В нём содержится 324 задачи редактирования в 11 реальных и 36 синтетических строительных моделях, оценивающих геометрическую точность, семантическую корректность и топологическую согласованность. Наилучшая модель достигает среднего балла только 49,5%, при этом ни одна модель не решает более чем 3,4% задач, что подчёркивает существенный разрыв в способностях LLM для инженерных рабочих процессов.

arxiv arXiv cs.AI · 6 д назад

MedRLM: Рекурсивная мультимодальная интеллектуальная система здравоохранения

MedRLs обеспечивает долгосрочное клиническое мышление за счёт рекурсивного анализа данных пациента в тексте, изображениях, сенсорах и руководствах. Оно интегрирует специализированные агенты и граф памяти клинических доказательств для связи наблюдений с доказательствами и критериями редиректа, поддерживая сенсорное триггерное мышление и ревью клинистов с учётом неопределённости.

arxiv arXiv cs.AI · 6 д назад

Бенчмарк RS-Neg и метод NeFo для понимания отрицания в МЛМ-моделях дистанционного зондирования

RS-Neg — первый бенчмарк для оценки понимания отрицания в задачах дистанционного зондирования на уровне регионов и уровне сцены. Он показывает, что продвинутые МЛМ-модели дистанционного зондирования испытывают трудности с отрицанием, проявляя халлюцинации и падение производительности. NeFo, метод тестового обучения, улучшает понимание отрицания, используя только 5% непримечаемых тестовых данных и хорошо обобщается на новые задачи.

arxiv arXiv cs.AI · 6 д назад

HilDA: иерархическое дистиллирование с диффузией для самообучения предобучения LiDAR

HilDA представляет собой самообучающуюся предобучающую рамку для LiDAR-архитектур, использующую иерархическое дистиллирование и диффузионное временной занятости для улучшения семантического и геометрического понимания. Оно достигает лучших результатов на бенчмарках дистиллирования межмодальных данных и превосходит предыдущие методы по 3D-обнаружению объектов, прогнозированию сцены и семантического заполнения.

arxiv arXiv cs.AI · 6 д назад

FlowMaps Модели длительных многомодальных динамик объектов

FlowMaps — это модель скрытого потока, которая предсказывает будущие положения объектов в 3D средах, изучая пространственно-временные паттерны из взаимодействий человека. Оно превосходит самые передовые методы в динамическом навигационном движении объектов более чем на 600 эпизодах как в симулированных, так и в реальных условиях.

arxiv arXiv cs.AI · 6 д назад

SPOT-E: Метод формирования энтропии на этапе тестирования с визуальными фокусами для замороженных моделей ВЛ

SPOT-E представляет метод на этапе тестирования, использующий визуальные фокусы для усиления фиксации доказательств в замороженных моделях визуально-языковых моделей. Метод использует низкоэнтропийные анкоры и цель формирования энтропии для снижения неопределенности ответов, при этом сохраняя высокодоверительные токены, что повышает устойчивость к визуальным искажениям на различных наборах данных и в различных семействах моделей ВЛ.

arxiv arXiv cs.AI · 6 д назад

Lagrange: Открытый словарный разреженный фреймворк для целостного управления автомобилем

Lagrange представляет открытый словарный, энергетический разреженный фреймворк для обобщённого целостного управления автомобилем. Он использует модели визуально-языковых моделей для генерации объектных предложений, не зависящих от класса, и кодирует их в непрерывные семантические токены, обеспечивая устойчивое обобщение на аномальные сценарии, при этом соблюдая кинематику автомобиля за счёт минимизации лагранжевой действия.

arxiv arXiv cs.AI · 6 д назад

ELVA: Фреймворк на основе ранжирования для многомодального поиска

ELVA вводит фреймворк на основе правил машинного обучения для решения проблемы слепоты к деталям в многомодальном поиске. Используя подтверждаемые вознаграждения и различая отрицательные образцы на основе сходства, ELVA повышает точность ранжирования и достигает роста на 13,1% на MRBench, бенчмарке для сценариев многократного запроса.

arxiv arXiv cs.LG · 6 д назад

Диагностика альцгеймера с использованием слияния мультимодальных 3D МРТ и ПЭТ

Новое исследование объединяет данные 3D МРТ и ПЭТ с помощью продвинутых стратегий слияния, включая GMU и гатед самовнимание, а также спарсно гатед MoE классификатор. Результаты показывают, что GMU достигает точности 80,46% на NC против MCI и 95,47% на NC против AD, при гатед самовнимании достигается 82,08% на MCI против AD. Исследования с устранением компонент подтверждают, что MoE значительно улучшает производительность, подчеркивая важность мультимодального моделирования с адаптацией к входным данным для точной диагностики альцгеймера.

arxiv arXiv cs.LG · 6 д назад

PaAno+: Легкая модель обнаружения аномалий в временных рядах с мультискалярным и межпеременной вниманием

PaAno+ представляет легкую модель, использующую мультискалярное конволюционирование и межпеременную внимательность для улучшения обнаружения аномалий в временных рядах. Она достигает наилучших результатов по точности как на одномерных, так и на многомерных задачах, демонстрируя превосходные показатели по VUS-PR и другим метрикам, при этом обеспечивая эффективное вычисление для реального времени на устройствах с ограниченными ресурсами.

arxiv arXiv cs.LG · 6 д назад

Pose6DAug: Физически обоснованный обмен объектами в многокамерном виде

Pose6DAug обеспечивает аугментацию данных для роботов путем обмена объектами в успешных сессиях, при этом сохраняя физически допустимые траектории 6D ориентации. Оно работает в 3D с использованием сетки, закрепленной за временно согласованными ориентациями, обеспечивая согласованность во множестве камер и физическую обоснованность. Тонкая настройка политики VLA на этом аугментированном данных повышает показатели успешного обнаружения новых объектов на 16,5% по сравнению с современными базовыми моделями.

arxiv arXiv cs.LG · 6 д назад

MedRLM: Рекурсивная мультимодальная интеллектуальная система в области здравоохранения

MedRLs обеспечивает долгосрочное клиническое мышление за счёт рекурсивного анализа данных пациента в тексте, изображениях, сенсорах и руководствах. Оно интегрирует специализированные агенты и граф памяти клинических доказательств для связи наблюдений с доказательствами и критериями направления, поддерживая сенсорное триггерное мышление и ревью клиницистов с учётом неопределённости.

arxiv arXiv cs.LG · 6 д назад

MELT и SALT: Мультимодальные модели контрастного обучения для земных вложений

MELT и SALT — это мультимодальные модели контрастного обучения, использующие непарные геосpatial данные для улучшения вложений местоположения. Оба достигают результатов, равных двум лучшим базовым моделям с двумя модальностями, на четырех задачах, но добавление дополнительных модальностей не приводит к стабильному улучшению результатов, что указывает на то, что основным ограничением производительности является конструкция кодера местоположения. MELT обеспечивает более стабильную обучение и лучше подходит для будущего масштабирования моделей.

arxiv arXiv cs.LG · 6 д назад

Машинное обучение предсказывает возраст беременности по магнитно-резонансной томографии плода

Пайплайн на основе машинного обучения, использующий многомодальные данные магнитно-резонансной томографии плода, позволяет предсказать возраст беременности при рождении с R2, равным 0,13, и средней абсолютной ошибкой в 2,74 недели. Он достигает точности 0,77, чувствительности 0,59 и специфичности 0,82, при этом длина шейки и параметры T2* плаценты являются ключевыми признаками. В данной работе представлено доказательство концепта предсказания преждевременных родов с использованием МРТ и машинного обучения.

arxiv arXiv cs.LG · 6 д назад

Вычислительные методы для ДНК вне клеток в раннем выявлении множественных видов рака

Настоящий обзор описывает вычислительные методы с 2022 по 2025 год для выявления множественных видов рака на основе ДНК вне клеток в крови. В нем рассматриваются фрагментометрия и эпигенетический анализ, охватываются статистические, методы машинного обучения и глубокого обучения, с акцентом на биологическую интерпретируемость, проверку и клиническую готовность. Мультимодальные методы на основе ансамблей показывают наибольший потенциал для клинического применения, однако для надежного сравнения и дальнейшего прогресса необходимы стандартизированные протоколы оценки.