Multimodal
arxiv arXiv cs.LG · 8 д назад

Кадровая система ST-CND для раннего предупреждения географических пороговых точек

Спектрально-временные каскадные сети диагностики (ST-CND) представляет данные-ориентированную систему для обнаружения географических пороговых точек путем моделирования пространственных полей как каскадных сетей, эволюционирующих во времени. Она превосходит существующие методы на стандартах морской поверхности температуры, достигая значения AUROC в 0,783 и критического подсетевого IoU в 0,378 для Североатлантического AMOC.

arxiv arXiv cs.LG · 8 д назад

Физически ограниченные нейронные сети улучшают прогнозирование погоды

Исследование улучшает физически ограниченные нейронные сети за счет введения усовершенствованного численного решателя, едиблого автокорреляционного блока и двух нейронных оснований. Эти улучшения снижают среднеквадратическую ошибку на 8-22% в краткосрочных прогнозах в южной части Тихого океана и лучше сохраняют физическую согласованность.

arxiv arXiv cs.LG · 8 д назад

АСТЕРОИД: трансформатор для прогнозирования многошаговых симуляций молекулярной динамики

АСТЕРОИД — это данные-ориентированный фреймворк, который прогнозирует многошаговые координаты атомов в симуляциях молекулярной динамики без итеративного интегрирования. Он использует архитектуру трансформатора, ориентированную на пространственно-временные зависимости, для моделирования многоуровневых зависимостей, обеспечивая более высокую точность и меньшую вычислительную стоимость по сравнению с существующими методами на данных, полученных из квантовой механики.

arxiv arXiv cs.LG · 8 д назад

Модели визуально-языковых систем не всегда нуждаются в изображениях для точности рентгеновских снимков грудной клетки

Каузальный аудит показывает, что многие визуально-языковые модели достигают высокой точности рентгеновских снимков грудной клетки без использования изображений. Текстовые модели достигают одинаковой производительности с мультимодальными моделями и превосходят их в области сопоставления, при этом показатели точности и уверенности появляются только при использовании изображений. Эти результаты указывают на то, что точность в отдельности недостаточна для подтверждения клинического внедрения, и необходимо оценивать сопоставление.

arxiv arXiv cs.LG · 8 д назад

Порядково-независимые представления на уровне ячеек для многозадачной распознавания таблиц

В этой статье представлен модуль структурной оптимизации, использующий неуправляемое внимание, для генерации порядково-независимых признаков ячеек в автокоррекционной многозадачной распознавании таблиц. Подход позволяет параллельную распознавание содержимого ячеек, сохраняя глобальный контекст, улучшая локализацию ячеек и полную распознавание с уменьшением времени инференса в три раза.

arxiv arXiv cs.LG · 8 д назад

CERS: улучшенное рассуждение на основе цепочки мыслей для сегментации медицинских изображений

CERS вводит рассуждение на основе цепочки мыслей для улучшения сегментации медицинских изображений в полуобученных условиях, интегрируя лингвистические описания из больших языковых моделей. Оно использует семантически осознанное выборку ссылок и мульти-масштабное внимание координат для устранения неопределенностей на границах и семантических несоответствий, превосходя современные методы в клинических сценариях с несоответствием визуально-семантического.

arxiv arXiv cs.AI · 8 д назад

Семантический подход к моделированию скрытого пространства для реконструкции 3D МРТ

Новый подход приоритизирует анатомические семантики при сжатии скрытого пространства 3D МРТ, решая проблемы долгосрочной целостности и потери клинических деталей. В нем представлен скрытый гармонизирующий кодировщик и блок восстановления семантики для сохранения значимых структур, а также анатомически осознанная потеря частоты для сохранения высокочастотных диагностических особенностей. Эксперименты на публичных наборах данных МРТ показывают улучшенную реконструкцию и качество синтеза в разных контрастах.

arxiv arXiv cs.AI · 8 д назад

Влияние исходного языка в межязыковом обучении в контексте

Исследование показывает, что предположения, основанные на мелкой настройке, о межязыковом переносе не применимы в случае обучения в контексте с минимальным количеством примеров. Исследование показывает, что выбор исходного языка значительно влияет на производительность и выявляет новые эвристики для эффективного межязыкового обучения в контексте.

arxiv arXiv cs.AI · 8 д назад

Качествосознательная самодистилляция для подключения интерфейса

Новый метод улучшает подключение интерфейса с использованием мягких ворот, ориентированных на корректность, и масштабирования вероятности учителя для усиления сигналов учителя, связанных с координатами токенов. Эти компоненты работают совместно для подавления ненадежной поддержки и калибровки оставшихся сигналов, эксперименты показывают стабильное улучшение производительности на шести бенчмарках.

arxiv arXiv cs.AI · 8 д назад

WEQA: Вопросы о здоровье в носимых устройствах с адаптивным запросом агентской логики

WEQA представляет агентскую архитектуру, адаптирующую запросы, которая объединяет языковые модели с специализированными инструментами анализа данных в носимых устройствах. Она превосходит базовые модели LLM и агентов по точности на 24% и демонстрирует улучшенную полезность и клиническую надежность в экспертизных и пользовательских оценках.

arxiv arXiv cs.AI · 8 д назад

LEADS: агентское открытие гибридных моделей для кардиальной электрофизиологии

LEADS предлагает рамку, использующую агента LLM для открытия гибридных моделей кардиальной электрофизиологии через итеративный цикл рассуждения и действий. Он формулирует доменную знания как структурированное пространство действий, что позволяет создавать физически обоснованные, интерпретируемые и численно стабильные модели, превосходя как человечески спроектированные, так и другие подходы на основе LLM на синтетических и реальных кардиальных данных.

arxiv arXiv cs.CL · 8 д назад

Подача системы одновременного перевода речи MLLP-VRAIN на IWSLT 2026

Группа MLLP-VRAIN подает каскадную систему SimulST, использующую модели Parakeet и Qwen 3.5 с адаптивными политиками черного ящика. Для En→De, It, Zh, она использует усиление слов аудиосинтеза и RAG с предварительно переведенными образцами в новом контекстном треке, достигая улучшения на 5,82 XCOMET-XL на MCIF En→De и дополнительного роста на 1,03 за счет интеграции контекста.

arxiv arXiv cs.CL · 8 д назад

Мягкое подсказывание для соблюдения языка в мультимодальных LLM

Предлагается подход мягких подсказок для улучшения соблюдения языка в мультимодальных LLM без строгих ограничений на выход. Метод вводит новый метрику для количественной оценки нарушений языка и оценивает три стратегии: нулевой подсказки, надзирательной настройки и рассуждения цепочкой мыслей. Результаты показывают эффективность в снижении нарушений языка при сохранении производительности ASR на разных языках, с рассмотрением компромиссов при различных ограничениях вычислительных ресурсов.

arxiv arXiv cs.CL · 8 д назад

SpeechDx: Многоцелевой бенчмарк для клинической речевой ИИ

SpeechDx представляет масштабный бенчмарк, включающий 12 датасетов и 27 задач по различным медицинским состояниям. Он оценивает модели по стадиям речевого производства и показывает, что масштабные модели показывают наилучшие результаты, в то время как специализированные модели демонстрируют ограниченную обобщаемость на различных клинических условиях.

arxiv arXiv cs.CL · 8 д назад

Операционизация онтологии для непереводимых случаев в NLP

Вводится новая онтология и таксономия компенсационных стратегий для непереводимых случаев, что позволяет проводить контролируемый анализ машинного перевода. Мультимедийный набор данных соединяет непереводимые предложения с переводами, основанными на стратегиях, демонстрируя предпочтение человека к выводам, включающим объяснительный контекст, что называется стратегией аннотации компенсации.

arxiv arXiv cs.CL · 8 д назад

Визуальные данные лгут, согласованность говорит: разъединение пространственной внимательности от надежности в визуально-языковых моделях

Исследование подвергает сомнению предположение о том, что визуальные сигналы внимания отражают надежность в визуально-языковых моделях. Оно показывает почти нулевую корреляцию между пространственной внимательностью и точностью, демонстрируя, что согласованность по всем путям рассуждения является более сильным предиктором истины. Надежность лучше объясняется динамикой генерации и распределения внутренних состояний, а не визуальными паттернами внимания.

arxiv arXiv cs.CL · 8 д назад

LLMs превосходят людей по предсказанию следующего говорящего

Большие языковые модели превосходили людей и модели супервизионного обучения при предсказании следующего говорящего с использованием корпуса AMI, несмотря на отсутствие аудиовизуальных данных и доменной подготовки. Мультимодальные LLMs превосходили текстовые LLMs по обнаружению адресата и изменениях в диалоге, но все еще не достигали уровня человеческой производительности, подчеркивая трудности в использовании исходных аудиовизуальных сигналов. Исследования с устранением компонентов показывают, что контекст диалога является критически важным, особенно для предсказания следующего говорящего, при этом как люди, так и LLMs испытывают трудности при частых изменениях ритма диалога.

arxiv arXiv cs.CL · 8 д назад

MambaCount: Эффективный текст-ориентированный подсчет объектов

MambaCount вводит пространственно разреженный блок двойственного состояния для обеспечения эффективного текст-ориентированного подсчета объектов в открытой лексике. Оно решает ограничения касательно причинной модели и высокую энтропию в ответах на пространственные токены, достигая лучших результатов на FSC-147 с тестовой ошибкой MAE 12.23, при этом сохраняя линейную сложность.

arxiv arXiv cs.CL · 8 д назад

Модели визуально-языковых систем не всегда требуют изображений для точности рентгеновского снимка грудной клетки

Каузальный аудит показывает, что текстовые модели без изображений достигают такой же точности, как и мультимодальные модели, при рентгеновском исследовании грудной клетки. В девяти системах текстовая модель показывает отклонение не более чем на 5,7 пунктов от лучшей мультимодальной модели, и модель на 119 миллиардов параметров неотличима от базовой текстовой модели на 7 миллиардов параметров. Оценка фундаментальности, а не точности, должна определять клиническое внедрение.

arxiv arXiv cs.CL · 8 д назад

Антипарадокс Слопа: переписка ИИ снижает клиническую неопределенность и межмодальную синхронизацию

Отчеты по рентгенологическим исследованиям, переписанные ИИ, показывают значительную потерю информации, при этом сжатие в электронных медицинских записях уничтожает 51,4% клинических сущностей и 43,7% градиентного языка. Несмотря на сохранение синхронизации между изображением и текстом, стандартизированные и учебные задачи снижают межмодальную синхронизацию на 14,9–16,5%, что в шесть-семь раз превышает потерю при сжатии в электронных медицинских записях. Исследование не выявляет предпочтительной деградации редких патологий и определяет тип задачи переписки как ключевой фактор деградации, а не содержание клинической информации.