Multimodal — korshunov.ai — новости ML

Multimodal Страница 1 / 8

Кадр VibrantForests отображает структуру лесов с разрешением 10 метров

Кадр VibrantForests использует данные спутников, обученные на образцах лазерного сканирования, для создания ежегодных, полных по территории карт покрытия крон, высоты, биомассы, базовой площади и квадратичного среднего диаметра на территории непрерывного Соединённых Штатов с разрешением 10 метров. Он повышает точность, сокращая переоценку в редких лесах и недооценку в плотных лесах, расширяя диапазон надежных прогнозов за пределы традиционных моделей, основанных на пассивных сенсорах.

arxiv arXiv cs.LG · 6 д назад

Протокол де-биасированного VLM как 3D-судьи для генерации мебели

Де-биасированный протокол судьи на основе VLM специализируется на генерации мебели, используя легкую адаптацию TRELLIS. Протокол решает режимы сбоев, такие как перегрузка изображений и скрытие геометрии, при калибровке показывает коэффициент побед 0,83–1,0 и базовую симметрию по сравнению с базой в 0,5. Среди шести методов адаптации, восстановление условного модуля при тяжелом деградации достигает равенства с базовой моделью, при этом ни один метод не превышает целевой выигрышной доли в 65%.

arxiv arXiv cs.CL · 6 д назад

NEST: Датасет для нарративных структур событий в длинных видео

NEST представляет датасет из 1005 полных фильмов, каждый из которых аннотирован 102 мультимодальными нарративными событиями, основанными на визуальном, диалоговом и аудио содержимом. Датасет отражает отношения между событиями, такие как временная последовательность, иерархия и долгосрочные зависимости, при оценке на задачах показывают низкую производительность в обнаружении и локализации событий, и более высокую производительность в извлечении отношений между событиями после финальной настройки.

arxiv arXiv cs.CL · 6 д назад

NRITYAM: Бенчмарк для культурного понимания в танце

NRITYAM — это многоразговорный бенчмарк с 9260 пар вопрос-ответ в 12 языках, разработанный для оценки культурного понимания языковых моделей в отношении традиционных танцевальных традиций по всему миру. Разработан в сотрудничестве с местными танцорами и носителями языков, он обеспечивает всестороннюю оценку способности ИИ понимать традиционные театральные искусства в различных социокультурных контекстах.

arxiv arXiv cs.CL · 6 д назад

MedRLM: Рекурсивная мультимодальная интеллектуальная система здравоохранения

MedRLs обеспечивает долгосрочное клиническое мышление за счёт рекурсивного анализа данных пациента в тексте, изображениях, сенсорах и руководствах. Оно интегрирует специализированные агенты и граф памяти клинических доказательств для связи наблюдений за пациентом с доказательствами, биомаркерами и критериями реферирования, поддерживая сенсорное триггирование и ревью клиницистов с учётом неопределённости.

arxiv arXiv cs.CL · 6 д назад

Алгоритм для определения нот и ключей в музыкальной транскрипции

Новый алгоритм оценивает названия нот, ключи и локальные шкалы на основе входных данных, аналогичных MIDI, путем совместной оптимизации модальных и тональных стадий. Он был проверен на жазз-сопровождениях, соло-транскрипциях, традиционных мелодиях и классических пьесах для пианино, с дополнительными расстояниями, определенными между распространенными жазз-шкалами для музыкальных исследований.

arxiv arXiv cs.CL · 6 д назад

CzechDocs: Параллельный набор данных для перевода документов на малые языки

CzechDocs — это многоканальный параллельный набор данных, содержащий оформленные документы в форматах HTML, DOCX и PDF, охватывающие чешский язык и малые языки, такие как украинский, английский, вьетнамский и русский. Набор поддерживает оценку систем машинного перевода, сохраняющих форматирование документов, и включает подмножество для проверки и открытый инструментарий для оценки. Будет использоваться отдельный тестовый набор для будущего совместного задания по переводу документов с сохранением форматирования.

media r/LocalLLaMA · 6 д назад

LFM2.5-Embedding-35-0M и LFM2.5-ColBERT-350M были выпущены

LFM2.5-Embedding-350M — это плотный двойной кодировщик, обеспечивающий быструю мультиязычную ретриев-операцию с одним вектором на документ, достигающий наилучшей точности для своего размера и скорость инференса, сравнимой с более малыми моделями. LFM2.5-ColBERT-350M — это ретриев-модель с поздним взаимодействием, обеспечивающий наилучшую мультиязычную точность, позволяющий проводить межязычную ретриев-операцию, храня один вектор на токен и поддерживая ретриев на нескольких языках с высокой точностью. Оба моделя являются разработанными как прямые замены для существующих пайплайнов RAG.

media r/LocalLLaMA · 6 д назад

Мощь интеллекта лучше лежит в руках людей, чем в кабинетах магнатов

Проект PearlOS запустил открытую платформу для распределённого интеллекта, которая использует локальные модели для выполнения многомодальных задач. Она автоматически выбирает и переключается между наиболее эффективными моделями на основе критериев оценки, обеспечивая пользователям постоянный доступ к самым новым и наиболее мощным моделям, не завися от закрытых систем или подписок.

media r/LocalLLaMA · 7 д назад

Запуск Keye-VL-2.0-30B-A3B с продвинутыми возможностями понимания видео и функциями агента

Keye-VL-2.0-30B-A3B — это мультимодальный модель с 30 миллиардами параметров, разработанный для понимания длинных видео и функционирования агента. Она превосходит открытые конкурентов и достигает уровня Gemini-3-Flash в временной фиксации, поддерживает до 256K контекста с почти безпотерьным рассуждением и включает встроенные возможности для агентов по коду, инструментам и поиску в интернете.

arxiv arXiv cs.LG · 7 д назад

TGO-I: Спектральная геометрия визуальных трансформеров

TGO-I анализирует спектральную геометрию визуальных трансформеров, используя ViT-Small/16, обученный на ImageNet-100. Он показывает рост использования размерностей и снижение анизотропии, при этом спектры становятся плоскими, а спектральная энтропия растёт. Последний токен CLS демонстрирует наибольшую эффективную размерность и наименьшую анизотропию, что указывает на широкое распределение вариативности по размерностям.

arxiv arXiv cs.LG · 7 д назад

OneCanvas: Понимание 3D-сцены через перепроекцию панорамы

OneCanvas обеспечивает понимание 3D-сцены в моделях Вид-Язык путем агрегации признаков патчей на единую панорамную панель с использованием координат 3D-мира. Оно достигает лучших результатов на SQA3D и VSI-Bench, и обобщается на данные вне распределения на SPBench, используя значительно меньшее количество вычислений на обучении по сравнению с существующими методами.

arxiv arXiv cs.LG · 7 д назад

Звук и свет предсказывают делириум в ИЦУ

Исследование показало, что интенсивность окружающего звука и света может независимо предсказывать делириум в ИЦУ. Характеристики звука были доминирующими предикторами, а комбинация звука и света улучшала оценку риска делириума на короткий срок, особенно в течение одной недели.

arxiv arXiv cs.AI · 7 д назад

Поток, ориентированный на клиницистов, для аннотации и оценки искусственного интеллекта в ультразвуковой диагностике

Новый поток позволяет клиницистам выполнять удаленную аннотацию и оценку моделей искусственного интеллекта в ультразвуковой диагностике без необходимости локального скачивания данных. Поток поддерживает участие нескольких оценщиков, агрегацию результатов и автоматический статистический анализ, что было проверено в исследовании по сегментации плодового ультразвука с участием шести оценщиков разного уровня компетентности. Результаты показывают средний до сильный уровень согласия и предпочтение поздних моделей активного обучения в оценках без привлечения специалистов.

arxiv arXiv cs.AI · 7 д назад

Операционно-валидированная система визуального цикла для автономности морских дронов

Глубокий монокулярный оценщик ориентации обрабатывает сгенерированные морские среды в реальном времени, объединяя данные ИМУ через задержанный фильтр Калмана. Система позволяет осуществлять автономное полеты в помещении с задержкой восприятия и ограничениями вычислительной мощности, обеспечивая безопасную валидацию автономности морских дронов до их установки на кораблях.

arxiv arXiv cs.AI · 7 д назад

Многодоменный бенчмарк для обнаружения текстовых изображений, сгенерированных ИИ

Новый бенчмарк оценивает изображения с текстом, сгенерированные ИИ, в шести областях, включая коммерческие плакаты и чеки. Он показывает значительную зависимость от области и чувствительность к сжатию JPEG, что подчёркивает необходимость методов обнаружения, учитывающих текст и расположение.

arxiv arXiv cs.AI · 7 д назад

OneCanvas: Понимание 3D-сцены через перепроекцию панорамы

OneCanvas обеспечивает понимание 3D-сцены в моделях Вид-Язык путем агрегирования признаков кусков на панорамной панели с использованием координат 3D-мира. Оно достигает лучших результатов на SQA3D и VSI-Bench, с сильной обобщаемостью на SPBench, используя значительно меньшее количество вычислений на обучении по сравнению с предыдущими методами.

arxiv arXiv cs.CL · 7 д назад

OmniAgent: интегрированная активная восприятие для многомодального понимания

OmniAgent вводит итеративный цикл наблюдения-мысли-действия на основе POMDP для понимания видео, позволяя выполнять действия по требованию и селективно выделять аудиовизуальные сигналы в постоянную текстовую память. Он достигает передовых результатов на десяти бенчмарках, при этом агент на 7 миллиардов параметров превосходит модель Qwen2.5-VL-72B на 10 раз по размеру на LVBench (50,5% против 47,3%).

arxiv arXiv cs.LG · 7 д назад

Семантическая устойчивость сертификации для моделей визуально-языковых

В данной работе представлены методы, которые сертифицируют устойчивость моделей визуально-языковых к семантическим преобразованиям, используя текстовые запросы как прокси. Оно количественно определяет интервалы, в которых предсказания остаются неизменными, без необходимости дополнительных данных для каждой вариации. Эксперименты на синтетических и реальных данных демонстрируют его эффективность при различных семантических вариациях.

arxiv arXiv cs.LG · 7 д назад

Индуктивные предвзятости в машинном обучении при эмуляции резких охлаждений стратосферы

Исследование оценивает, как индуктивные предвзятости архитектуры влияют на способность машинного обучения эмулировать динамику резких охлаждений стратосферы в идеализированных симуляциях. Результаты показывают, что трехмерное вертикальное взаимодействие является ключевой индуктивной предвзятостью, при которой производительность моделей значительно деградирует во время активных вариаций, похожих на SSW. Однако низкая ошибка прогноза не гарантирует точность взаимодействий волн и среднего потока, поскольку остаются когерентные ошибки в структуре возбуждения волн в стратосфере.