Multimodal
arxiv arXiv cs.AI · 1 д назад

DataClaw0: Агентная настройка мультимодальных данных из исходных потоков

DataClaw0 вводит агентную парадигму для активного уточнения мультимодальных данных с целью соответствия пользовательским и последующим намерениям. Оно использует двухэтапную схему с фактами-анкерами для генерации масштабного набора данных в пяти областях и достигает сильной синхронизации с помощью надзора и GRPO. Оценка на генерации видео, VQA и навигации в интерфейсе, DataClaw0 создает данные высокой информационной плотности, что позволяет эффективно адаптировать модели при минимальном объеме обучающих данных.

arxiv arXiv cs.AI · 1 д назад

EnTrust: Моделирование межмодальных конфликтов для надежного анализа мультимодальных медицинских изображений

EnTrust представляет рамку, в которой межмодальный конфликт рассматривается как основной источник предсказательной неопределенности в анализе медицинских изображений. Он разделяет мультимодальные признаки на общий консенсус, модальность-специфические сигналы и сигналы конфликта, что позволяет осуществлять калиброванную оценку неопределенности на уровне пикселей через модель на основе диффузии и карты доверия. EnTrust достигает наилучшей точности сегментации, снижает ошибку калибровки на 40% и превосходит 5-кратные глубокие ансамбли с половиной объема памяти.

arxiv arXiv cs.AI · 1 д назад

MIRCaps: масштабный многодоменный визуально-языковой датасет

MIRCaps представляет масштабный многомодальный датасет, содержащий 141 364 изображения, 981 947 описаний на уровне изображения, 1 742 264 описания на уровне регионов и 5 391 779 аннотаций bounding box. Он обеспечивает детальное обучение визуально-языковых моделей за счёт подробных описаний для категорий объектов, их размеров, цветов, действий и контекста окружающей среды, и демонстрирует эффективность в задачах генерации описаний изображений и обнаружения объектов.

arxiv arXiv cs.AI · 1 д назад

Модель объяснимой ИИ для депрессии, связанной с карьерой, у студентов университетов

Новая рамка объяснимой ИИ использует структурированные данные поведения и признаки эмоций лица для обнаружения ранних признаков депрессии и тревожности, связанных с карьерой, у студентов университетов. Модель, оцененная на данных студентов из Пакистана, достигает значения F1-меры 89,12% и выявляет ключевые маркеры, такие как избегание прямого взгляда и социальная изоляция, что соответствует психологическим теориям.

arxiv arXiv cs.AI · 1 д назад

Разделение декларативных и процедурных знаний в моделях визуально-языковых-действий

w$^{2}$VLA вводит модульную модель визуально-языковых-действий, которая разделяет декларативные и процедурные знания. Структурирование потока информации позволяет обеспечить надежное копирование поведения и нулевое переносимость навыков на новые, несхожие объекты.

lab Mistral AI News · 2 д назад

Mistral выпустил OCR 4 с поддержкой нескольких языков и структурированным выводом

Mistral OCR 4 вводит границы прямоугольников, классификацию блоков и внутренние оценки достоверности для 170 языков в 10 группах языков. Он превосходит ведущие системы распознавания текста в оценках предпочтений людей с коэффициентом выигрыша 72% и достигает наивысшей оценки на OlmOCRBench (85,20), при этом обеспечивая развертывание в одном контейнере и поддержку корпоративных сценариев, таких как RAG и ввод документов.

arxiv arXiv cs.CL · 2 д назад

Сравнительная оценка систем машинного перевода и групп постредакторов в специализированном переводе

Исследование сравнивает три системы машинного перевода — DeepL, eTranslation и Systran — и две группы постредакторов: лингвистов/переводчиков и экспертов в области обработки естественного языка. Результаты показывают значительные различия в терминологической точности и гладкости, подчеркивая роль предметной специальности в специализированном переводе и переменную производительность систем машинного перевода в языковых контекстах.

arxiv arXiv cs.CL · 2 д назад

PIVOTSBench: бенчмарк для детального рассуждения о межличностных отношениях в МЛЛМ

PIVOTSBench — первый бенчмарк, оценивающий способность мультимодальных больших языковых моделей рассуждать о взаимосвязанных межличностных отношениях с использованием Social-IQ 2.0 и данных YouTube. В нём включены вспомогательные задачи для оценки распознавания визуальных сигналов и проводятся исследования вырезания по визуальным модальностям и социальным ролям, анализирующие, как совместные и парные прогнозы улучшают результаты по измерениям межличностных отношений, основанным на психологических исследованиях.

arxiv arXiv cs.CL · 2 д назад

AI-созданная репутация бренда зависит от языка

Репутация бренда, созданная с помощью ИИ, значительно варьируется в зависимости от языка, при этом языки уральской и балтийской групп показывают более позитивные эмоции, в то время как германские языки, включая английский, более критичны. Язык запроса влияет на рекомендованные бренды, особенно для местных лидеров, где запросы на родном языке увеличивают видимость на 0,80 пунктов по сравнению с запросами на английском языке. Мониторинг только на английском языке не позволяет полностью охватить видимость ИИ для локально базирующихся брендов, создавая измеримую зону языковой нечувствительности.

arxiv arXiv cs.CL · 2 д назад

CFPO: Counterfactual Policy Optimization для многомодального мышления

CFPO вводит механизм перекрестной модальности с обратной логикой для улучшения причинной согласованности между визуальным восприятием и текстовым мышлением в моделях визуально-языковых систем. Оно обеспечивает рост на 3,17%–6,25% по сравнению с стандартными базовыми RL и на 1,32%–2,13% по сравнению с PAPO, без необходимости внешних вознаграждений или надзора.

arxiv arXiv cs.CL · 2 д назад

VeriEvol: масштабирование многомодальных математических рассуждений с верифицированной эволюцией

VeriEvol представляет верифицируемую систему построения данных для визуальных математических рассуждений, разделяя сложность запроса и надежность ответа. Он эволюционирует изображения-вопросы с использованием операторов, ориентированных на типы, и проверяет ответы с помощью многоканального противоречивого доказательства. На пяти бенчмарках масштабирование от 10K до 250K образцов повышает среднюю точность с 35.42 до 54.73, что составляет суммарный рост на +3.88 по сравнению с базовой версией, обусловленный эволюционированными запросами и верификацией HTV-Agent.

arxiv arXiv cs.CL · 2 д назад

CapRiCorn-1K: Бенчмарк для описания видео и согласованности темы

CapRiCorn-1K — это бенчмарк, который оценивает качество описания видео и согласованность ссылок на предмет в различных длительностях и областях видео. Он поддерживает как аудиовизуальные, так и визуальные настройки, показывая, что текущие модели не могут поддерживать согласованность ссылок на предмет, особенно в более длинных видео, при этом качество и согласованность описаний снижаются с увеличением продолжительности видео. Метрики бенчмарка показывают сильную согласованность с задачами, которые идут после, что подтверждает их эффективность.

arxiv arXiv cs.CL · 2 д назад

ViRGo: Адаптивное маршрутизация для визуального поиска и глобальной перцепции

ViRGo представляет лёгкую архитектуру, которая адаптирует визуальный поиск в зависимости от масштаба объекта. Она использует внутреннюю локализацию и семантическую уверенность для маршрутизации между глобальной перцепцией, поисковыми операциями на участках и поисковыми операциями на основе внимания, улучшая баланс между точностью и эффективностью без дополнительных вычислений.

arxiv arXiv cs.CL · 2 д назад

Moshi-Face: полудуплексная речевая диалоговая модель с генерацией лиц

Moshi-Face — первая полудуплексная речевая диалоговая модель, которая одновременно обрабатывает аудио и видео лица, генерируя как речь, так и синхронизированные движения лица. Модель использует кодек лица на основе VQ-VAE для кодирования и реконструкции 3D-сеток голов из видео лиц в дискретные токены лиц, и модуль Face Transformer для генерации этих токенов без автобака для получения аудиовизуального вывода в реальном времени. Проведённые эксперименты показывают, что Moshi-Face обеспечивает аудиовизуальную синхронизацию с низкой задержкой, сохраняя при этом исходное качество диалога.

arxiv arXiv cs.CL · 2 д назад

TSCognition и TSAlign продвигают рассуждение по временным рядам с использованием LLMs

TSCognition представляет многомодальный бенчмарк с 41K образцов вопрос-ответ по пяти задачам когнитивного рассуждения. TSAlign превосходит существующие модели на TSCognition и TimerBed, одновременно снижая вычислительные затраты, используя представления на уровне патчей и выравнивание в пространстве векторных представлений LLM.

arxiv arXiv cs.CL · 2 д назад

BioMatrix: Первый нативно мультимодальный биологический фундаментальный модель

BioMatrix интегрирует последовательности, структуры и язык для молекул и белков в единой архитектуре с одним декодером. Оно достигает уровня передовых или конкурентных результатов на 77 из 80 задач в области последующей обработки, демонстрируя эффективные мультимодальные общие способности без внешних компонентов.

arxiv arXiv cs.CL · 2 д назад

Модели речи-текста латентно транскрибируют речь в промежуточных слоях

Модели речи-текста, встроенные в друг друга, проходят скрытую фазу транскрипции, при которой речевые слова превращаются в разделяемые текстовые токены в промежуточных слоях, несмотря на отсутствие обучения по распознаванию речи. До 77% данных показывают, что речевое слово появляется как наиболее вероятный текстовый предсказываемый вариант, за которым следует продолжение текста и возврат к речи. Такое поведение обусловлено встраиванием данных и инициализацией текстовых моделей, что коррелирует с показателями знаний о речи.

arxiv arXiv cs.CL · 2 д назад

РОМЕВА: Расширение словаря с сохранением геометрии для моделей языка романского урду

РОМЕВА решает проблему фрагментации подслов в романском урду путем комбинации инициализации по среднему значению подслов и потерь с использованием PCA-указателей для стабилизации векторов. Хотя РОМЕВА лучше сохраняет предобученные векторы, прямое тонкое обучение обеспечивает более высокую производительность в классификации настроений, что указывает на компромисс между стабильностью векторов и производительностью на уровне задач в языках с несогласованными морфологическими структурами.

arxiv arXiv cs.CL · 2 д назад

Gazer: обучение-безопасная коррекция семантики для автобуровых визуальных моделей

Gazer представляет рамку без обучения, которая использует обратную связь крупных моделей языка с несколькими модальностями для исправления семантических ошибок в реальном времени во время генерации автобуровыми визуальными моделями. Интегрируя стадии отражательной диагностики и семантической коррекции, Gazer повышает составную точность и семантическую синхронизацию между несколькими моделями без дополнительного обучения.

arxiv arXiv cs.CL · 2 д назад

Мультимодальный цепочка мыслей: Возможности и ограничения

Мультимодальная цепочка мыслей улучшает производительность в математических и научных рассуждениях, но ухудшает визуальную опору и подсчет объектов в задачах восприятия. Модели демонстрируют паттерн «Смотрим мало, думаем много», при котором визуальное отражение уменьшается, а вербальное отражение увеличивается, что указывает на постоянный барьер в визуальном мышлении.