Multimodal — korshunov.ai — новости ML

Тема · Multimodal

RTSGameBench решает ограничения существующих бенчмарков для игр в реальном времени, предлагая разнообразные игровые сценарии, направленную диагностику компетенций и генерацию сценариев, развивающихся самостоятельно. Он оценивает модели визуально-языковых моделей в стратегическом мышлении при неопределённости, показывая, что самые передовые модели сталкиваются с трудностями при координации нескольких агентов и выполнении масштабных задач.

arxiv arXiv cs.AI · 9 д назад

ThinkDeception: Интерпретируемая многомодальная система обнаружения лжи

ThinkDeception представляет прогрессивную систему обучения с усилением, позволяющую проводить интерпретируемое обнаружение лжи на основе нескольких модальностей. Она использует аннотированный пошаговый датасет Chain of Thought и предлагает метод оптимизации политики групп относительной визуальной-аудиальной согласованности с динамическим куррикулом, повышающий качество рассуждений и превосходящую существующие методы на основных бенчмарках.

arxiv arXiv cs.LG · 10 д назад

Модели визуально-языковых систем не всегда нуждаются в изображениях для точности рентгеновских снимков грудной клетки

Каузальный аудит показывает, что многие визуально-языковые модели достигают высокой точности рентгеновских снимков грудной клетки без использования изображений. Текстовые модели достигают одинаковой производительности с мультимодальными моделями и превосходят их в области сопоставления, при этом показатели точности и уверенности появляются только при использовании изображений. Эти результаты указывают на то, что точность в отдельности недостаточна для подтверждения клинического внедрения, и необходимо оценивать сопоставление.

arxiv arXiv cs.AI · 10 д назад

WEQA: Вопросы о здоровье в носимых устройствах с адаптивным запросом агентской логики

WEQA представляет агентскую архитектуру, адаптирующую запросы, которая объединяет языковые модели с специализированными инструментами анализа данных в носимых устройствах. Она превосходит базовые модели LLM и агентов по точности на 24% и демонстрирует улучшенную полезность и клиническую надежность в экспертизных и пользовательских оценках.

arxiv arXiv cs.AI · 10 д назад

LEADS: агентское открытие гибридных моделей для кардиальной электрофизиологии

LEADS предлагает рамку, использующую агента LLM для открытия гибридных моделей кардиальной электрофизиологии через итеративный цикл рассуждения и действий. Он формулирует доменную знания как структурированное пространство действий, что позволяет создавать физически обоснованные, интерпретируемые и численно стабильные модели, превосходя как человечески спроектированные, так и другие подходы на основе LLM на синтетических и реальных кардиальных данных.

arxiv arXiv cs.CL · 10 д назад

Визуальные данные лгут, согласованность говорит: разъединение пространственной внимательности от надежности в визуально-языковых моделях

Исследование подвергает сомнению предположение о том, что визуальные сигналы внимания отражают надежность в визуально-языковых моделях. Оно показывает почти нулевую корреляцию между пространственной внимательностью и точностью, демонстрируя, что согласованность по всем путям рассуждения является более сильным предиктором истины. Надежность лучше объясняется динамикой генерации и распределения внутренних состояний, а не визуальными паттернами внимания.

arxiv arXiv cs.CL · 10 д назад

MambaCount: Эффективный текст-ориентированный подсчет объектов

MambaCount вводит пространственно разреженный блок двойственного состояния для обеспечения эффективного текст-ориентированного подсчета объектов в открытой лексике. Оно решает ограничения касательно причинной модели и высокую энтропию в ответах на пространственные токены, достигая лучших результатов на FSC-147 с тестовой ошибкой MAE 12.23, при этом сохраняя линейную сложность.

arxiv arXiv cs.CL · 10 д назад

Модели визуально-языковых систем не всегда требуют изображений для точности рентгеновского снимка грудной клетки

Каузальный аудит показывает, что текстовые модели без изображений достигают такой же точности, как и мультимодальные модели, при рентгеновском исследовании грудной клетки. В девяти системах текстовая модель показывает отклонение не более чем на 5,7 пунктов от лучшей мультимодальной модели, и модель на 119 миллиардов параметров неотличима от базовой текстовой модели на 7 миллиардов параметров. Оценка фундаментальности, а не точности, должна определять клиническое внедрение.

arxiv arXiv cs.CL · 11 д назад

ContextRL: контекстуально-оптимизированный RL для LLMs

ContextRL вводит косвенную вспомогательную цель для улучшения долгосрочного мышления и многомодальных характеристик в LLMs. Модель получает награду за выбор контекста, поддерживающего пару запрос-ответ, используя контрастные данные о контексте из траекторий кодирующих агентов и изображений, связанных с визуальными вопросами. ContextRL достигает роста на +2,2% и +1,8% по сравнению с стандартными методами на тестах долгосрочного мышления и визуальных вопросов, причём рост объясняется выбором цели, а не дополнением данных.

arxiv arXiv cs.AI · 11 д назад

BinTrack: Открытый источник спектральный QA с двоичным поиском траектории

BinTrack — это полностью открытый источник агент по спектральному вопросу, использующий двоичный поиск по траектории робота для нахождения ответов. Он достигает на 22,8% более высокой точности по сравнению с другими открытыми методами и соответствует производительности закрытых моделей на наиболее сложной глобальной категории бенчмарка SpaceLocQA. Система также обеспечивает более чем в 1,5 раза более быструю инференс и вводит GangnamLoop — реальный внешний бенчмарк, собранный с помощью четырёхногого робота.

arxiv arXiv cs.CL · 9 д назад

Честное обнаружение когнитивных нарушений через отучивание

Мультимодальный подход объединяет данные речи, текста и изображений с отучением на основе градиентного обратного преобразования для снижения демографической предвзятости при обнаружении легких когнитивных нарушений. Метод превосходит существующие мультимодальные и мультиязычные базовые модели на TAUKADIAL и PREPARE, демонстрируя сокращение разрыва в производительности между подгруппами по полу и языку, а также улучшенную переносимость между датасетами.

arxiv arXiv cs.CL · 9 д назад

Morpheus: нейронный токенизатор и векторизатор для турецкого языка

Morpheus — это морфологически осознанный нейронный токенизатор и векторизатор для турецкого языка, который сохраняет исходный текст за счёт безпотерьного кодирования и декодирования. Он достигает наименьшего количества бит на символ (1,425), улучшает морфологическую синхронизацию (MorphScore macro-F1 0,61) и использует на 19% меньше видеопамяти, чем токенизаторы на основе подслов с словарём из 64 тысяч слов. Векторы Morpheus, закреплённые в памяти, превосходят BGE-M3 и BERTurk по лексическому поиску, с показателем MAP по корневым семействам 0,85 и ROC-AUC 1,00.

arxiv arXiv cs.CL · 9 д назад

SAMA: Единая платформа для расширения мультимодальных данных в условиях низкой ресурсности

SAMA представляет единую платформу, генерирующую синтетические данные высокого качества и ориентированные на задачу, путем синхронизации семантических опор между модальностями. Используется коллаборативная мультимодальная модель с несколькими экспертами, с общей и задачеспецифической адаптацией, и применяется механизм диффузии с сохранением опор для синтеза изображений, обеспечивая семантическую согласованность при разнообразии визуальных контекстов. Широкие эксперименты показывают, что SAMA превосходит самые современные методы по MNER, MRE и MEE при низком уровне ресурсов.

arxiv arXiv cs.CL · 9 д назад

RPCL улучшает извлечение пар эмоций-причин

RPCL, рамка обучения только на тренировке, повышает уверенность в парах при извлечении пар эмоций-причин за счёт обеспечения дискриминативных и стабильных границ уверенности. Он превосходит базовую модель по ECF, MECAD и MEC4 на 2,58–2,83 процентных пункта в F1 по парам и улучшает среднее значение Pair AUPRC по наборам данных, при этом обеспечивая более выраженную разницу между истинными парами и трудными отрицательными примерами.

arxiv arXiv cs.CL · 9 д назад

Регулируемое слияние моделей для многозначного мышления

Регулируемое слияние моделей (ST-Merge) вводит механизм гаттерного перекрестного внимания для адаптивного взвешивания исходных моделей во время многозначного мышления. Оно превосходит существующие базовые варианты на четырех бенчмарках многозначного мышления на 21 языке за счет динамического приоритизации моделей на основе характеристик входных данных.

arxiv arXiv cs.CL · 9 д назад

IndicContextEval: бенчмарк для использования контекста в аудио-моделях языковых моделей

IndicContextEval представляет 56-часовой мультяжный бенчмарк, включающий естественные речевые данные 555 говорящих из 8 индийских языков и 23 областей. В нем используется 7-уровневая система запросов для постепенного тестирования использования контекста, включая метаданные, описания и противоречивые вводы. Оценка пяти моделей показывает значительные различия в контекстной фиксации, что подчеркивает необходимость явной оценки использования контекста в аудио-моделях языковых моделей.

arxiv arXiv cs.AI · 9 д назад

SHIFT: Уменьшение языковой предвзятости в мультяжных системах поиска информации

SHIFT — это метод обучения без обучения, который устраняет языковую предвзятость в мультяжных системах поиска информации, используя параллельные переводы для оценки относительных языковых векторов. Он корректирует языковые смещения в векторах документов во время индексирования, что улучшает производительность поиска в различных моделях и тестах.

arxiv arXiv cs.AI · 9 д назад

KinemaForge: синтез URDF из последовательностей RGB-D

KinemaForge одновременно определяет форму на уровне частей, топологию соединений и параметры на основе последовательностей RGB-D с использованием кинематического ограничительного графа и дифференцируемого решателя по винтовым осям. Результаты проверяются с помощью проверяющего устройства, обеспечивающего энергетическую согласованность, что снижает ошибку осей соединений и дрейф симуляции, при этом повышает успешность замкнутого управления на 14,6 процентных пунктов по сравнению с Ditto.

arxiv arXiv cs.AI · 9 д назад

BeliefDiffusion: генеративное предсказательное планирование для навигации

BeliefDiffusion объединяет диффузионные модели для многомодальных представлений вероятностей с модельным предсказательным контролем для долгосрочного планирования навигации. Оно превосходит модельные безусловные методы обучения и другие генеративные подходы по успешности навигации и эффективности пути в частично наблюдаемых средах.

arxiv arXiv cs.AI · 9 д назад

Эквивариантные графовые нейронные сети улучшают предсказание оптических спектров

Эквивариантные графовые нейронные сети превосходят существующие модели при предсказании оптических спектров для отбора материалов. Адаптированный GotenNet достигает превосходной производительности, особенно в диапазоне от 0 до 8 эВ и при предсказании статической реальной диэлектрической проницаемости, что критично для оптики тонких пленок.

RTSGameBench: Бенчмарк для стратегического мышления в играх

ThinkDeception: Интерпретируемая многомодальная система обнаружения лжи

Модели визуально-языковых систем не всегда нуждаются в изображениях для точности рентгеновских снимков грудной клетки

WEQA: Вопросы о здоровье в носимых устройствах с адаптивным запросом агентской логики

LEADS: агентское открытие гибридных моделей для кардиальной электрофизиологии

Визуальные данные лгут, согласованность говорит: разъединение пространственной внимательности от надежности в визуально-языковых моделях

MambaCount: Эффективный текст-ориентированный подсчет объектов

Модели визуально-языковых систем не всегда требуют изображений для точности рентгеновского снимка грудной клетки

ContextRL: контекстуально-оптимизированный RL для LLMs

BinTrack: Открытый источник спектральный QA с двоичным поиском траектории

Честное обнаружение когнитивных нарушений через отучивание

Morpheus: нейронный токенизатор и векторизатор для турецкого языка

SAMA: Единая платформа для расширения мультимодальных данных в условиях низкой ресурсности

RPCL улучшает извлечение пар эмоций-причин

Регулируемое слияние моделей для многозначного мышления

IndicContextEval: бенчмарк для использования контекста в аудио-моделях языковых моделей

SHIFT: Уменьшение языковой предвзятости в мультяжных системах поиска информации

KinemaForge: синтез URDF из последовательностей RGB-D

BeliefDiffusion: генеративное предсказательное планирование для навигации

Эквивариантные графовые нейронные сети улучшают предсказание оптических спектров