Multimodal
arxiv arXiv cs.AI · 12 ч назад

MMGist: Комплексная мультимодальная оценка для 2027 года

MMGist — это отобранный мультимодальный бенчмарк с 7262 элементами, разработанный для устранения недостатков существующих оценок визуально-языковых моделей. Он снижает размер оценки на 69% и повышает межмодульную дифференциацию на 78%, при этом сохраняя ранжирование моделей с корреляцией Спирмена 0,98. Оценка подчеркивает визуальную логику как ключевой недостаток и акцентирует важность визуальной зависимости, дифференцирующей способности и надежности в оценке.

arxiv arXiv cs.AI · 12 ч назад

Эффективные мультимодальные модели для оценки риска пневмонии

Бенчмарк, использующий эффективные мультимодальные большие языковые модели, оценивает диагностику ПЭ и прогнозирование риска на наборе данных INSPECT. Результаты показывают, что Gemma4 E4B и E2B превосходят другие модели при наличии данных о медицинской истории, при этом диагностика ПЭ достигает более высокой точности, чем прогнозирование рисков, таких как повторное посещение.

arxiv arXiv cs.AI · 15 ч назад

Глубокое обучение для распознавания жестов и перевода на индийские языки

Двухэтапная система глубокого обучения классифицирует видеофрагменты индийского жестового языка на английские слова с использованием настроенного модели VideoMAE и переводит их на хинди, телугу и бенгали с помощью модели NLLB-200. Система достигает точности 99% на обучении и 78% на валидации на наборе из 13 классов и 197 видеофрагментов, при равномерных видеофрагментах размером 16 кадров и разрешением 22-224, и включает демонстрацию на Streamlit для загрузки пользователем видео с анализом по классам и идентификацией неисправностей.

arxiv arXiv cs.AI · 15 ч назад

Gazer: обнаружение ошибок семантики без обучения для автокорректирующих визуальных моделей

Gazer представляет рамку без обучения, которая использует обратную связь крупных моделей языка с несколькими модальностями для исправления ошибок семантики в реальном времени во время генерации автокорректирующими визуальными моделями. Интегрируя этапы отражательной диагностики и исправления семантики, Gazer повышает точность составления и выравнивание семантики между несколькими моделями без дополнительного обучения.

arxiv arXiv cs.AI · 16 ч назад

Мультимодальный цепочка мыслей: Возможности и ограничения

Мультимодальная цепочка мыслей улучшает производительность в математических и научных рассуждениях, но ухудшает визуальное восприятие и подсчет объектов в задачах восприятия. Модели демонстрируют паттерн «Смотрим слабо, думаем сильно», при котором визуальное отражение снижается, а вербальное рассуждение увеличивается, что указывает на постоянный барьер в визуальной саморефлексии при мультимодальном рассуждении.

arxiv arXiv cs.AI · 16 ч назад

SmartSDG Pipeline Enhances Syn-to-Real Object Detection

Статья представляет SmartSDG — автоматизированную систему, использующую NVIDIA Isaac Sim и физически обоснованную шADING для оптимизации адаптации синтетических данных к реальным. В ней показано, что косвенное освещение и сложные фоновые условия улучшают обнаружение объектов за счёт сохранения текстур поверхностей и снижения ложноположительных результатов, превосходя традиционные синтетические данные под прямым освещением.

media r/LocalLLaMA · 17 ч назад

Модель Unlimited-OCR от Байду переводит десятки страниц за один проход

Байду выпустил модель Unlimited-OCR, которая переводит десятки страниц за один проход с использованием механизма Reference Sliding Window Attention (R-SWA). Модель основана на DeepSeek-OCR, наследуя его кодировщик, сжатие изображений и архитектуру MoE, при этом у неё всего 500 млн активных параметров на токен. Модель достигает точности 93,92% на OmniDocBench v1.6, превосходя результаты DeepSeek-OCR на v1.5 (87,01%), хотя результаты, предоставленные поставщиком, требуют независимой проверки.

arxiv arXiv cs.LG · 18 ч назад

DataClaw0: Агентная настройка мультимодальных данных из исходных потоков

DataClaw0 вводит агентную парадигму для активного уточнения исходных мультимодальных данных с целью соответствия намерениям пользователя и последующих задач. Оно использует двухэтапную схему, основанную на фактических опорах, для создания масштабного набора данных в пяти областях и объединяет обучение с помощью надзора и GRPO для достижения сильной синхронизации с сложными задачами уточнения. Оценка на генерации видео, VQA и навигации в интерфейсе, DataClaw0 обеспечивает высокую плотность информационного содержания в настраиваемых данных, что позволяет эффективно адаптировать модели при минимальном объеме обучающих данных.

arxiv arXiv cs.LG · 19 ч назад

Нейронный кодек действий для моделей визуально-языковых-действий

NAC, архитектура, вдохновленная нейронным аудиокодеком, сжимает траектории действий робота как многоканальные одномерные сигналы с использованием многоуровневой резидуальной векторной квантовой. Заменяя потери мел-спектрограмм на восстановление в временной области и не-мел спектральной, NAC достигает высокой точности кодирования действий при минимальных изменениях архитектуры, превосходя существующие токенизаторы по ошибке восстановления и показателям успеха на реальных задачах манипулирования.

arxiv arXiv cs.LG · 19 ч назад

Атомарные языковые модели понимают и генерируют материалы

Атомарные языковые модели (ALM) объединяют язык и атомарные структуры, позволяя генерировать и оптимизировать кристаллы с использованием естественного языка. ALM используют непрерывный мост для отображения языковых векторов в пространство диффузии, направляющее атомарные структуры, и применяют Text-to-Crystal Feynman-Kac для точности стехиометрии. Бенчмарк ALM Bench оценивает генерацию и оптимизацию материалов при условии текста, код и веса будут скоро опубликованы.

arxiv arXiv cs.LG · 20 ч назад

ASCII Art позволяет текстовым LLM контролировать системы VLA

Текстовый большой языковой модель может быть адаптирован к контроллеру Vision--Language--Action с использованием ASCII-рендеренных визуальных наблюдений. Этот подход позволяет LLM интерпретировать визуальные состояния через текст, что позволяет им следовать инструкциям на естественном языке и генерировать исполняемые действия как в симуляции, так и на физических манипуляторах.

arxiv arXiv cs.LG · 20 ч назад

Разделение декларативных и процедурных знаний в моделях визуально-языковых-действий

w$^{2}$VLA вводит модульный подход, который разделяет декларативные и процедурные знания в моделях визуально-языковых-действий. Структурирование потока информации позволяет обеспечить надежное копирование поведения и беспрецедентную передачу навыков без обучения на незнакомых и несхожих объектах.

media r/LocalLLaMA · 21 ч назад

Qwen выпустил MoE на 35 миллиардов параметров для имитации среды агента

Qwen представил модель Qwen-AgentWorld-35B-A3B, MoE на 35 миллиардов параметров, при этом у неё около 3 миллиардов активных параметров на токен. Модель обучена на имитации ответов от MCP, терминала, программирования, Android, веб-интерфейсов и графических интерфейсов операционных систем путем предсказания следующих наблюдений после действий агента, что позволяет эффективно обучать агентов и имитировать среду без выполнения реальных инструментов.

arxiv arXiv cs.CL · 22 ч назад

ParaPairAudioBench: Бенчмарк для оценки паралингвистических характеристик речи

ParaPairAudioBench представляет парный бенчмарк из 5175 пар аудио по пяти паралингвистическим измерениям. Он показывает, что текущие LALM-оценщики отстают от человеческих оценок в среднем на 32% и не демонстрируют калибровку, особенно в случаях равенства, где отказ от оценки является правильным.

arxiv arXiv cs.CL · 1 д назад

MMed-Bench-IR: Мультималярный медицинский бенчмарк по поиску

MMed-Bench-IR представляет гетерогенный бенчмарк для мультималярного медицинского поиска информации на шести языках. Он оценивает межязыковую синхронизацию, дифференциацию концепций и извлечение доказательств через три различных задания без пересекающихся концепций или запросов. Оценка показывает значительное падение межязыковой производительности, при переходе на японский язык английские биомедицинские энкодеры снижаются с 0.818 до 0.056 nDCG@10, что подчеркивает ограничения, не обнаруженные в бенчмарках, основанных только на английском языке.

arxiv arXiv cs.CL · 1 д назад

AVOC: Использование метода извлечения для сжатия токенов в понимании длинных аудио-видео данных

AVOC улучшает понимание длинных аудио-видео данных в универсальных многомодальных языковых моделях, вводя модуль сжатия токенов, обучаемый в процессе. Он переформулирует выбор токенов как задачу извлечения топ-K, используя критерии релевантности, важности и разнообразия для выбора компактных и информативных токенов, достигая лучших результатов на OmniVideoBench и LVOmniBench, и сохраняя сильную производительность на задачах поиска в стеке из одного часа аудио-видео данных.

arxiv arXiv cs.AI · 1 д назад

MedLayXPlain: Оценка разрыва между экспертами и обычными людьми в медицинских моделях визуально-языковых

MedLayXPlain представляет первый масштабный бенчмарк для генерации медицинской повседневной речи, включающий 122 789 образцов с региональной привязкой в восьми модальностях изображений. Он оценивает медицинские визуально-языковые модели по согласованию между экспертами и обычными людьми с использованием иерархической системы онтологии и лёгкого оценщика, выявляя систематический разрыв: экспертный уровень производительности в описании изображений сопровождается значительным снижением в повседневной речи, при этом общецелевые модели не обладают клинической точностью.

arxiv arXiv cs.AI · 1 д назад

Извлечение и анализ мультимодальных концепций в моделях визуально-языковых

Новый фреймворк, использующий разреженные автоэнкодеры, извлекает и анализирует визуальные, текстовые и мультимодальные концепции из моделей визуально-языковых. Эксперименты на LLaVA-NeXT показывают улучшение качества визуальных концепций до 45% и систематическую идентификацию мультимодальных концепций, что предлагает структурированный подход к пониманию внутренних представлений VLM.

arxiv arXiv cs.AI · 1 д назад

FleetAgent: Эффективное телеманипулирование для автономных флотов

FleetAgent — это облачный мультимодальный большой языковой модель, обрабатывающий компактные векторизованные сообщения от автомобиля к сети, что позволяет обеспечивать эффективное и объяснимое телеманипулирование. Он снижает объём данных вверх по каналу вплоть до 625 раз и объём памяти KV-кэша в 625 раз по сравнению с исходными изображениями или текстом, и превосходит Qwen2.5-VL-7B по показателям Lingo-Judge и вероятности сбоев при вмешательстве на наборе данных VecEval.

arxiv arXiv cs.AI · 1 д назад

FastGAN и модели на основе трансформеров улучшают обнаружение вредителей на бобовых

Исследование использует FastGAN для генерации 10 000 синтетических гиперспектральных изображений листьев бобовых, сохраняя реальные спектральные и структурные характеристики. Модели на основе трансформеров, в частности Vision Transformer, достигают наивысшей точности и F1-оценок при классификации здоровых и поражённых вредителями листьев, превосходя классические CNN и демонстрируя улучшенное обнаружение болезней с уменьшением ложных отрицательных результатов.