Тема · Multimodal
arxiv arXiv cs.AI · 10 д назад

RTSGameBench: Бенчмарк для стратегического мышления в играх

RTSGameBench решает ограничения существующих бенчмарков для игр в реальном времени, предлагая разнообразные игровые сценарии, направленную диагностику компетенций и генерацию сценариев, развивающихся самостоятельно. Он оценивает модели визуально-языковых моделей в стратегическом мышлении при неопределённости, показывая, что самые передовые модели сталкиваются с трудностями при координации нескольких агентов и выполнении масштабных задач.

arxiv arXiv cs.AI · 10 д назад

ThinkDeception: Интерпретируемая многомодальная система обнаружения лжи

ThinkDeception представляет прогрессивную систему обучения с усилением, позволяющую проводить интерпретируемое обнаружение лжи на основе нескольких модальностей. Она использует аннотированный пошаговый датасет Chain of Thought и предлагает метод оптимизации политики групп относительной визуальной-аудиальной согласованности с динамическим куррикулом, повышающий качество рассуждений и превосходящую существующие методы на основных бенчмарках.

arxiv arXiv cs.LG · 10 д назад

Модели визуально-языковых систем не всегда нуждаются в изображениях для точности рентгеновских снимков грудной клетки

Каузальный аудит показывает, что многие визуально-языковые модели достигают высокой точности рентгеновских снимков грудной клетки без использования изображений. Текстовые модели достигают одинаковой производительности с мультимодальными моделями и превосходят их в области сопоставления, при этом показатели точности и уверенности появляются только при использовании изображений. Эти результаты указывают на то, что точность в отдельности недостаточна для подтверждения клинического внедрения, и необходимо оценивать сопоставление.

arxiv arXiv cs.AI · 11 д назад

WEQA: Вопросы о здоровье в носимых устройствах с адаптивным запросом агентской логики

WEQA представляет агентскую архитектуру, адаптирующую запросы, которая объединяет языковые модели с специализированными инструментами анализа данных в носимых устройствах. Она превосходит базовые модели LLM и агентов по точности на 24% и демонстрирует улучшенную полезность и клиническую надежность в экспертизных и пользовательских оценках.

arxiv arXiv cs.AI · 11 д назад

LEADS: агентское открытие гибридных моделей для кардиальной электрофизиологии

LEADS предлагает рамку, использующую агента LLM для открытия гибридных моделей кардиальной электрофизиологии через итеративный цикл рассуждения и действий. Он формулирует доменную знания как структурированное пространство действий, что позволяет создавать физически обоснованные, интерпретируемые и численно стабильные модели, превосходя как человечески спроектированные, так и другие подходы на основе LLM на синтетических и реальных кардиальных данных.

arxiv arXiv cs.CL · 11 д назад

Визуальные данные лгут, согласованность говорит: разъединение пространственной внимательности от надежности в визуально-языковых моделях

Исследование подвергает сомнению предположение о том, что визуальные сигналы внимания отражают надежность в визуально-языковых моделях. Оно показывает почти нулевую корреляцию между пространственной внимательностью и точностью, демонстрируя, что согласованность по всем путям рассуждения является более сильным предиктором истины. Надежность лучше объясняется динамикой генерации и распределения внутренних состояний, а не визуальными паттернами внимания.

arxiv arXiv cs.CL · 11 д назад

MambaCount: Эффективный текст-ориентированный подсчет объектов

MambaCount вводит пространственно разреженный блок двойственного состояния для обеспечения эффективного текст-ориентированного подсчета объектов в открытой лексике. Оно решает ограничения касательно причинной модели и высокую энтропию в ответах на пространственные токены, достигая лучших результатов на FSC-147 с тестовой ошибкой MAE 12.23, при этом сохраняя линейную сложность.

arxiv arXiv cs.CL · 11 д назад

Модели визуально-языковых систем не всегда требуют изображений для точности рентгеновского снимка грудной клетки

Каузальный аудит показывает, что текстовые модели без изображений достигают такой же точности, как и мультимодальные модели, при рентгеновском исследовании грудной клетки. В девяти системах текстовая модель показывает отклонение не более чем на 5,7 пунктов от лучшей мультимодальной модели, и модель на 119 миллиардов параметров неотличима от базовой текстовой модели на 7 миллиардов параметров. Оценка фундаментальности, а не точности, должна определять клиническое внедрение.

arxiv arXiv cs.CL · 12 д назад

ContextRL: контекстуально-оптимизированный RL для LLMs

ContextRL вводит косвенную вспомогательную цель для улучшения долгосрочного мышления и многомодальных характеристик в LLMs. Модель получает награду за выбор контекста, поддерживающего пару запрос-ответ, используя контрастные данные о контексте из траекторий кодирующих агентов и изображений, связанных с визуальными вопросами. ContextRL достигает роста на +2,2% и +1,8% по сравнению с стандартными методами на тестах долгосрочного мышления и визуальных вопросов, причём рост объясняется выбором цели, а не дополнением данных.

arxiv arXiv cs.AI · 12 д назад

BinTrack: Открытый источник спектральный QA с двоичным поиском траектории

BinTrack — это полностью открытый источник агент по спектральному вопросу, использующий двоичный поиск по траектории робота для нахождения ответов. Он достигает на 22,8% более высокой точности по сравнению с другими открытыми методами и соответствует производительности закрытых моделей на наиболее сложной глобальной категории бенчмарка SpaceLocQA. Система также обеспечивает более чем в 1,5 раза более быструю инференс и вводит GangnamLoop — реальный внешний бенчмарк, собранный с помощью четырёхногого робота.

arxiv arXiv cs.AI · 10 д назад

KinemaForge: синтез URDF из последовательностей RGB-D

KinemaForge одновременно определяет форму на уровне частей, топологию соединений и параметры на основе последовательностей RGB-D с использованием кинематического ограничительного графа и дифференцируемого решателя по винтовым осям. Результаты проверяются с помощью проверяющего устройства, обеспечивающего энергетическую согласованность, что снижает ошибку осей соединений и дрейф симуляции, при этом повышает успешность замкнутого управления на 14,6 процентных пунктов по сравнению с Ditto.

arxiv arXiv cs.AI · 10 д назад

BeliefDiffusion: генеративное предсказательное планирование для навигации

BeliefDiffusion объединяет диффузионные модели для многомодальных представлений вероятностей с модельным предсказательным контролем для долгосрочного планирования навигации. Оно превосходит модельные безусловные методы обучения и другие генеративные подходы по успешности навигации и эффективности пути в частично наблюдаемых средах.

arxiv arXiv cs.AI · 10 д назад

Эквивариантные графовые нейронные сети улучшают предсказание оптических спектров

Эквивариантные графовые нейронные сети превосходят существующие модели при предсказании оптических спектров для отбора материалов. Адаптированный GotenNet достигает превосходной производительности, особенно в диапазоне от 0 до 8 эВ и при предсказании статической реальной диэлектрической проницаемости, что критично для оптики тонких пленок.

media r/LocalLLaMA · 10 д назад

Lemonade v10.8 Выпускает автоматическое управление памятью, поддержку облака и инструменты MCP

Lemonade v10.8 вводит динамическое управление памятью VRAM, которое автоматически выгружает неиспользуемые модели и уменьшает кэш KV для освобождения памяти GPU. Вводится поддержка облака для поставщиков, совместимых с OpenAI, что позволяет осуществлять локальное обслуживание моделей с возможностью маршрутизации в облако. Новый веб-интерфейс MCP открывает локальные модели как инструменты через POST /mcp, позволяя использовать локальные модели как инструменты в приложениях, оснащенных MCP.

arxiv arXiv cs.LG · 10 д назад

Кадровая система ST-CND для раннего предупреждения географических пороговых точек

Спектрально-временные каскадные сети диагностики (ST-CND) представляет данные-ориентированную систему для обнаружения географических пороговых точек путем моделирования пространственных полей как каскадных сетей, эволюционирующих во времени. Она превосходит существующие методы на стандартах морской поверхности температуры, достигая значения AUROC в 0,783 и критического подсетевого IoU в 0,378 для Североатлантического AMOC.

arxiv arXiv cs.LG · 10 д назад

Физически ограниченные нейронные сети улучшают прогнозирование погоды

Исследование улучшает физически ограниченные нейронные сети за счет введения усовершенствованного численного решателя, едиблого автокорреляционного блока и двух нейронных оснований. Эти улучшения снижают среднеквадратическую ошибку на 8-22% в краткосрочных прогнозах в южной части Тихого океана и лучше сохраняют физическую согласованность.

arxiv arXiv cs.LG · 10 д назад

АСТЕРОИД: трансформатор для прогнозирования многошаговых симуляций молекулярной динамики

АСТЕРОИД — это данные-ориентированный фреймворк, который прогнозирует многошаговые координаты атомов в симуляциях молекулярной динамики без итеративного интегрирования. Он использует архитектуру трансформатора, ориентированную на пространственно-временные зависимости, для моделирования многоуровневых зависимостей, обеспечивая более высокую точность и меньшую вычислительную стоимость по сравнению с существующими методами на данных, полученных из квантовой механики.

arxiv arXiv cs.LG · 10 д назад

CERS: улучшенное рассуждение на основе цепочки мыслей для сегментации медицинских изображений

CERS вводит рассуждение на основе цепочки мыслей для улучшения сегментации медицинских изображений в полуобученных условиях, интегрируя лингвистические описания из больших языковых моделей. Оно использует семантически осознанное выборку ссылок и мульти-масштабное внимание координат для устранения неопределенностей на границах и семантических несоответствий, превосходя современные методы в клинических сценариях с несоответствием визуально-семантического.

arxiv arXiv cs.AI · 10 д назад

Качествосознательная самодистилляция для подключения интерфейса

Новый метод улучшает подключение интерфейса с использованием мягких ворот, ориентированных на корректность, и масштабирования вероятности учителя для усиления сигналов учителя, связанных с координатами токенов. Эти компоненты работают совместно для подавления ненадежной поддержки и калибровки оставшихся сигналов, эксперименты показывают стабильное улучшение производительности на шести бенчмарках.

arxiv arXiv cs.CL · 11 д назад

Подача системы одновременного перевода речи MLLP-VRAIN на IWSLT 2026

Группа MLLP-VRAIN подает каскадную систему SimulST, использующую модели Parakeet и Qwen 3.5 с адаптивными политиками черного ящика. Для En→De, It, Zh, она использует усиление слов аудиосинтеза и RAG с предварительно переведенными образцами в новом контекстном треке, достигая улучшения на 5,82 XCOMET-XL на MCIF En→De и дополнительного роста на 1,03 за счет интеграции контекста.