Multimodal — korshunov.ai — новости ML

Multimodal Страница 1 / 8

Латентные СДЭ для обнаружения аномалий в редких многомерных временных рядах

Мы предлагаем генеративный метод с использованием латентных СДЭ для обнаружения аномалий в редких и нерегулярных многомерных временных рядах. Подход проецирует наблюдаемые данные на непрерывные стохастические системы, обеспечивая обработку пропущенных значений и нерегулярного отбора, при этом сохраняя циклические паттерны. Эксперименты на шести базовых наборах данных показывают, что наш метод достигает наилучших результатов, превосходя существующие базовые методы, особенно при высокой редкости данных.

arxiv arXiv cs.LG · 7 д назад

ViGOS: Разделение восприятия и рассуждения в многомодальных на-политических самодистилляциях

ViGOS представляет визуально обоснованную на-политическую самодистилляционную рамку для многомодальных больших языковых моделей. Она разделяет восприятие и рассуждение, используя визуальный учитель для визуальных описаний и учитель для конечных выводов, что снижает зависимость от текстовых ссылок. Этот подход улучшает визуально обоснованную производительность на нескольких бенчмарках визуально-языковых моделей.

arxiv arXiv cs.LG · 7 д назад

INDEQS: Граф-ориентированные нейронные уравнения дифференциальных уравнений

INDEQS представляет рамку графовых нейронных уравнений дифференциальных уравнений, в которой в архитектурном уровне интегрируется предварительное направленное графовое знание. Оно разделяет внутреннюю и внешнюю смешиваемость, предлагая как варианты с графовым ограничением, так и адаптивные по данным, при внешнем информировании снижается средняя абсолютная ошибка на больших графах, а внутреннее информирование обеспечивает эффективность параметров при соблюдении известной структуры смежности. Непрерывные декодеры превосходят дискретные на задачах прогнозирования трафика и гидрологических процессов в реальных условиях.

arxiv arXiv cs.LG · 7 д назад

ChronoSurv: Фреймворк графа для анализа выживаемости в многомодальных данных

ChronoSurv представляет иерархическую направленную графовую структуру, моделирующую медицинское обслуживание как прогресс-ориентированную клиническую траекторию. Оно достигает наилучших результатов в предсказании выживаемости на основе многомодальных данных, за счёт моделирования структурированных клинических рабочих процессов и обработки пропущенных данных с помощью гетерогенного передачи сообщений.

arxiv arXiv cs.CL · 7 д назад

Честное обнаружение когнитивных нарушений через отучивание

Мультимодальный подход объединяет данные речи, текста и изображений с отучением на основе градиентного обратного преобразования для снижения демографической предвзятости при обнаружении легких когнитивных нарушений. Метод превосходит существующие мультимодальные и мультиязычные базовые модели на TAUKADIAL и PREPARE, демонстрируя сокращение разрыва в производительности между подгруппами по полу и языку, а также улучшенную переносимость между датасетами.

arxiv arXiv cs.CL · 7 д назад

Morpheus: нейронный токенизатор и векторизатор для турецкого языка

Morpheus — это морфологически осознанный нейронный токенизатор и векторизатор для турецкого языка, который сохраняет исходный текст за счёт безпотерьного кодирования и декодирования. Он достигает наименьшего количества бит на символ (1,425), улучшает морфологическую синхронизацию (MorphScore macro-F1 0,61) и использует на 19% меньше видеопамяти, чем токенизаторы на основе подслов с словарём из 64 тысяч слов. Векторы Morpheus, закреплённые в памяти, превосходят BGE-M3 и BERTurk по лексическому поиску, с показателем MAP по корневым семействам 0,85 и ROC-AUC 1,00.

arxiv arXiv cs.CL · 7 д назад

SAMA: Единая платформа для расширения мультимодальных данных в условиях низкой ресурсности

SAMA представляет единую платформу, генерирующую синтетические данные высокого качества и ориентированные на задачу, путем синхронизации семантических опор между модальностями. Используется коллаборативная мультимодальная модель с несколькими экспертами, с общей и задачеспецифической адаптацией, и применяется механизм диффузии с сохранением опор для синтеза изображений, обеспечивая семантическую согласованность при разнообразии визуальных контекстов. Широкие эксперименты показывают, что SAMA превосходит самые современные методы по MNER, MRE и MEE при низком уровне ресурсов.

arxiv arXiv cs.CL · 7 д назад

RPCL улучшает извлечение пар эмоций-причин

RPCL, рамка обучения только на тренировке, повышает уверенность в парах при извлечении пар эмоций-причин за счёт обеспечения дискриминативных и стабильных границ уверенности. Он превосходит базовую модель по ECF, MECAD и MEC4 на 2,58–2,83 процентных пункта в F1 по парам и улучшает среднее значение Pair AUPRC по наборам данных, при этом обеспечивая более выраженную разницу между истинными парами и трудными отрицательными примерами.

arxiv arXiv cs.CL · 7 д назад

Регулируемое слияние моделей для многозначного мышления

Регулируемое слияние моделей (ST-Merge) вводит механизм гаттерного перекрестного внимания для адаптивного взвешивания исходных моделей во время многозначного мышления. Оно превосходит существующие базовые варианты на четырех бенчмарках многозначного мышления на 21 языке за счет динамического приоритизации моделей на основе характеристик входных данных.

arxiv arXiv cs.CL · 7 д назад

IndicContextEval: бенчмарк для использования контекста в аудио-моделях языковых моделей

IndicContextEval представляет 56-часовой мультяжный бенчмарк, включающий естественные речевые данные 555 говорящих из 8 индийских языков и 23 областей. В нем используется 7-уровневая система запросов для постепенного тестирования использования контекста, включая метаданные, описания и противоречивые вводы. Оценка пяти моделей показывает значительные различия в контекстной фиксации, что подчеркивает необходимость явной оценки использования контекста в аудио-моделях языковых моделей.

arxiv arXiv cs.AI · 7 д назад

Контроль обратной связи PID для интерпретируемого управления активацией в генерации музыки

В этой статье предложена двойная система управления с использованием ортогонализации Грама-Шмидта для разделения управления темпом и продолжительностью в генерации символической музыки. С помощью изоляции скрытых направлений с помощью DiffMean и применения обратной связи PID, достигается детерминированное, независимое модулирование свойств сигнала без переобучения, что снижает концептуальное пересечение и деградацию сигнала.

arxiv arXiv cs.AI · 7 д назад

SHIFT: Уменьшение языковой предвзятости в мультяжных системах поиска информации

SHIFT — это метод обучения без обучения, который устраняет языковую предвзятость в мультяжных системах поиска информации, используя параллельные переводы для оценки относительных языковых векторов. Он корректирует языковые смещения в векторах документов во время индексирования, что улучшает производительность поиска в различных моделях и тестах.

arxiv arXiv cs.AI · 7 д назад

KinemaForge: синтез URDF из последовательностей RGB-D

KinemaForge одновременно определяет форму на уровне частей, топологию соединений и параметры на основе последовательностей RGB-D с использованием кинематического ограничительного графа и дифференцируемого решателя по винтовым осям. Результаты проверяются с помощью проверяющего устройства, обеспечивающего энергетическую согласованность, что снижает ошибку осей соединений и дрейф симуляции, при этом повышает успешность замкнутого управления на 14,6 процентных пунктов по сравнению с Ditto.

arxiv arXiv cs.AI · 7 д назад

BeliefDiffusion: генеративное предсказательное планирование для навигации

BeliefDiffusion объединяет диффузионные модели для многомодальных представлений вероятностей с модельным предсказательным контролем для долгосрочного планирования навигации. Оно превосходит модельные безусловные методы обучения и другие генеративные подходы по успешности навигации и эффективности пути в частично наблюдаемых средах.

arxiv arXiv cs.AI · 7 д назад

RTSGameBench: Бенчмарк для стратегического мышления в играх

RTSGameBench решает ограничения существующих бенчмарков для игр в реальном времени, предлагая разнообразные игровые сценарии, направленную диагностику компетенций и генерацию сценариев, развивающихся самостоятельно. Он оценивает модели визуально-языковых моделей в стратегическом мышлении при неопределённости, показывая, что самые передовые модели сталкиваются с трудностями при координации нескольких агентов и выполнении масштабных задач.

arxiv arXiv cs.AI · 7 д назад

Квантовая аугментация GAN не показывает преимуществ в МРТ мозга

Контролируемый бенчмарк не выявил значимого роста производительности за счёт квантовых генеративных моделей при аугментации МРТ мозга. Синтетические образцы, созданные квантовыми и классическими GAN-моделями, статистически не различались, и оба типа моделей демонстрировали коллапс моделей и образцы за пределами распределения, особенно при низких долях данных. Исследование заключает, что квантовая аугментация не обеспечивает значимого расширения данных и действует скорее как регуляризация.

arxiv arXiv cs.AI · 7 д назад

ThinkDeception: Интерпретируемая многомодальная система обнаружения лжи

ThinkDeception представляет прогрессивную систему обучения с усилением, позволяющую проводить интерпретируемое обнаружение лжи на основе нескольких модальностей. Она использует аннотированный пошаговый датасет Chain of Thought и предлагает метод оптимизации политики групп относительной визуальной-аудиальной согласованности с динамическим куррикулом, повышающий качество рассуждений и превосходящую существующие методы на основных бенчмарках.

arxiv arXiv cs.AI · 7 д назад

Эквивариантные графовые нейронные сети улучшают предсказание оптических спектров

Эквивариантные графовые нейронные сети превосходят существующие модели при предсказании оптических спектров для отбора материалов. Адаптированный GotenNet достигает превосходной производительности, особенно в диапазоне от 0 до 8 эВ и при предсказании статической реальной диэлектрической проницаемости, что критично для оптики тонких пленок.

media r/LocalLLaMA · 7 д назад

Lemonade v10.8 Выпускает автоматическое управление памятью, поддержку облака и инструменты MCP

Lemonade v10.8 вводит динамическое управление памятью VRAM, которое автоматически выгружает неиспользуемые модели и уменьшает кэш KV для освобождения памяти GPU. Вводится поддержка облака для поставщиков, совместимых с OpenAI, что позволяет осуществлять локальное обслуживание моделей с возможностью маршрутизации в облако. Новый веб-интерфейс MCP открывает локальные модели как инструменты через POST /mcp, позволяя использовать локальные модели как инструменты в приложениях, оснащенных MCP.

arxiv arXiv cs.CL · 8 д назад

Влияние исходного языка в межязыковом обучении в контексте

Исследование показывает, что предпосылки, основанные на мелкой настройке, относительно межязыкового переноса не применимы к обучению в контексте. Исследование показывает, что выбор исходного языка в ICL требует новых эвристик, особенно в генеративных задачах, где языковая путаница является ключевой проблемой.