Тема · Multimodal
arxiv arXiv cs.AI · 9 д назад

RTSGameBench: Бенчмарк для стратегического мышления в играх

RTSGameBench решает ограничения существующих бенчмарков для игр в реальном времени, предлагая разнообразные игровые сценарии, направленную диагностику компетенций и генерацию сценариев, развивающихся самостоятельно. Он оценивает модели визуально-языковых моделей в стратегическом мышлении при неопределённости, показывая, что самые передовые модели сталкиваются с трудностями при координации нескольких агентов и выполнении масштабных задач.

arxiv arXiv cs.AI · 9 д назад

ThinkDeception: Интерпретируемая многомодальная система обнаружения лжи

ThinkDeception представляет прогрессивную систему обучения с усилением, позволяющую проводить интерпретируемое обнаружение лжи на основе нескольких модальностей. Она использует аннотированный пошаговый датасет Chain of Thought и предлагает метод оптимизации политики групп относительной визуальной-аудиальной согласованности с динамическим куррикулом, повышающий качество рассуждений и превосходящую существующие методы на основных бенчмарках.

arxiv arXiv cs.LG · 10 д назад

Модели визуально-языковых систем не всегда нуждаются в изображениях для точности рентгеновских снимков грудной клетки

Каузальный аудит показывает, что многие визуально-языковые модели достигают высокой точности рентгеновских снимков грудной клетки без использования изображений. Текстовые модели достигают одинаковой производительности с мультимодальными моделями и превосходят их в области сопоставления, при этом показатели точности и уверенности появляются только при использовании изображений. Эти результаты указывают на то, что точность в отдельности недостаточна для подтверждения клинического внедрения, и необходимо оценивать сопоставление.

arxiv arXiv cs.AI · 10 д назад

WEQA: Вопросы о здоровье в носимых устройствах с адаптивным запросом агентской логики

WEQA представляет агентскую архитектуру, адаптирующую запросы, которая объединяет языковые модели с специализированными инструментами анализа данных в носимых устройствах. Она превосходит базовые модели LLM и агентов по точности на 24% и демонстрирует улучшенную полезность и клиническую надежность в экспертизных и пользовательских оценках.

arxiv arXiv cs.AI · 10 д назад

LEADS: агентское открытие гибридных моделей для кардиальной электрофизиологии

LEADS предлагает рамку, использующую агента LLM для открытия гибридных моделей кардиальной электрофизиологии через итеративный цикл рассуждения и действий. Он формулирует доменную знания как структурированное пространство действий, что позволяет создавать физически обоснованные, интерпретируемые и численно стабильные модели, превосходя как человечески спроектированные, так и другие подходы на основе LLM на синтетических и реальных кардиальных данных.

arxiv arXiv cs.CL · 10 д назад

Визуальные данные лгут, согласованность говорит: разъединение пространственной внимательности от надежности в визуально-языковых моделях

Исследование подвергает сомнению предположение о том, что визуальные сигналы внимания отражают надежность в визуально-языковых моделях. Оно показывает почти нулевую корреляцию между пространственной внимательностью и точностью, демонстрируя, что согласованность по всем путям рассуждения является более сильным предиктором истины. Надежность лучше объясняется динамикой генерации и распределения внутренних состояний, а не визуальными паттернами внимания.

arxiv arXiv cs.CL · 10 д назад

MambaCount: Эффективный текст-ориентированный подсчет объектов

MambaCount вводит пространственно разреженный блок двойственного состояния для обеспечения эффективного текст-ориентированного подсчета объектов в открытой лексике. Оно решает ограничения касательно причинной модели и высокую энтропию в ответах на пространственные токены, достигая лучших результатов на FSC-147 с тестовой ошибкой MAE 12.23, при этом сохраняя линейную сложность.

arxiv arXiv cs.CL · 10 д назад

Модели визуально-языковых систем не всегда требуют изображений для точности рентгеновского снимка грудной клетки

Каузальный аудит показывает, что текстовые модели без изображений достигают такой же точности, как и мультимодальные модели, при рентгеновском исследовании грудной клетки. В девяти системах текстовая модель показывает отклонение не более чем на 5,7 пунктов от лучшей мультимодальной модели, и модель на 119 миллиардов параметров неотличима от базовой текстовой модели на 7 миллиардов параметров. Оценка фундаментальности, а не точности, должна определять клиническое внедрение.

arxiv arXiv cs.CL · 11 д назад

ContextRL: контекстуально-оптимизированный RL для LLMs

ContextRL вводит косвенную вспомогательную цель для улучшения долгосрочного мышления и многомодальных характеристик в LLMs. Модель получает награду за выбор контекста, поддерживающего пару запрос-ответ, используя контрастные данные о контексте из траекторий кодирующих агентов и изображений, связанных с визуальными вопросами. ContextRL достигает роста на +2,2% и +1,8% по сравнению с стандартными методами на тестах долгосрочного мышления и визуальных вопросов, причём рост объясняется выбором цели, а не дополнением данных.

arxiv arXiv cs.AI · 11 д назад

BinTrack: Открытый источник спектральный QA с двоичным поиском траектории

BinTrack — это полностью открытый источник агент по спектральному вопросу, использующий двоичный поиск по траектории робота для нахождения ответов. Он достигает на 22,8% более высокой точности по сравнению с другими открытыми методами и соответствует производительности закрытых моделей на наиболее сложной глобальной категории бенчмарка SpaceLocQA. Система также обеспечивает более чем в 1,5 раза более быструю инференс и вводит GangnamLoop — реальный внешний бенчмарк, собранный с помощью четырёхногого робота.

arxiv arXiv cs.CL · 9 д назад

Регулируемое слияние моделей для многозначного мышления

Регулируемое слияние моделей (ST-Merge) вводит механизм гаттерного перекрестного внимания для адаптивного взвешивания исходных моделей во время многозначного мышления. Оно превосходит существующие базовые варианты на четырех бенчмарках многозначного мышления на 21 языке за счет динамического приоритизации моделей на основе характеристик входных данных.

arxiv arXiv cs.CL · 9 д назад

IndicContextEval: бенчмарк для использования контекста в аудио-моделях языковых моделей

IndicContextEval представляет 56-часовой мультяжный бенчмарк, включающий естественные речевые данные 555 говорящих из 8 индийских языков и 23 областей. В нем используется 7-уровневая система запросов для постепенного тестирования использования контекста, включая метаданные, описания и противоречивые вводы. Оценка пяти моделей показывает значительные различия в контекстной фиксации, что подчеркивает необходимость явной оценки использования контекста в аудио-моделях языковых моделей.

arxiv arXiv cs.AI · 9 д назад

SHIFT: Уменьшение языковой предвзятости в мультяжных системах поиска информации

SHIFT — это метод обучения без обучения, который устраняет языковую предвзятость в мультяжных системах поиска информации, используя параллельные переводы для оценки относительных языковых векторов. Он корректирует языковые смещения в векторах документов во время индексирования, что улучшает производительность поиска в различных моделях и тестах.

arxiv arXiv cs.AI · 9 д назад

KinemaForge: синтез URDF из последовательностей RGB-D

KinemaForge одновременно определяет форму на уровне частей, топологию соединений и параметры на основе последовательностей RGB-D с использованием кинематического ограничительного графа и дифференцируемого решателя по винтовым осям. Результаты проверяются с помощью проверяющего устройства, обеспечивающего энергетическую согласованность, что снижает ошибку осей соединений и дрейф симуляции, при этом повышает успешность замкнутого управления на 14,6 процентных пунктов по сравнению с Ditto.

arxiv arXiv cs.AI · 9 д назад

BeliefDiffusion: генеративное предсказательное планирование для навигации

BeliefDiffusion объединяет диффузионные модели для многомодальных представлений вероятностей с модельным предсказательным контролем для долгосрочного планирования навигации. Оно превосходит модельные безусловные методы обучения и другие генеративные подходы по успешности навигации и эффективности пути в частично наблюдаемых средах.

arxiv arXiv cs.AI · 9 д назад

Эквивариантные графовые нейронные сети улучшают предсказание оптических спектров

Эквивариантные графовые нейронные сети превосходят существующие модели при предсказании оптических спектров для отбора материалов. Адаптированный GotenNet достигает превосходной производительности, особенно в диапазоне от 0 до 8 эВ и при предсказании статической реальной диэлектрической проницаемости, что критично для оптики тонких пленок.

media r/LocalLLaMA · 9 д назад

Lemonade v10.8 Выпускает автоматическое управление памятью, поддержку облака и инструменты MCP

Lemonade v10.8 вводит динамическое управление памятью VRAM, которое автоматически выгружает неиспользуемые модели и уменьшает кэш KV для освобождения памяти GPU. Вводится поддержка облака для поставщиков, совместимых с OpenAI, что позволяет осуществлять локальное обслуживание моделей с возможностью маршрутизации в облако. Новый веб-интерфейс MCP открывает локальные модели как инструменты через POST /mcp, позволяя использовать локальные модели как инструменты в приложениях, оснащенных MCP.

arxiv arXiv cs.LG · 10 д назад

Кадровая система ST-CND для раннего предупреждения географических пороговых точек

Спектрально-временные каскадные сети диагностики (ST-CND) представляет данные-ориентированную систему для обнаружения географических пороговых точек путем моделирования пространственных полей как каскадных сетей, эволюционирующих во времени. Она превосходит существующие методы на стандартах морской поверхности температуры, достигая значения AUROC в 0,783 и критического подсетевого IoU в 0,378 для Североатлантического AMOC.

arxiv arXiv cs.LG · 10 д назад

Физически ограниченные нейронные сети улучшают прогнозирование погоды

Исследование улучшает физически ограниченные нейронные сети за счет введения усовершенствованного численного решателя, едиблого автокорреляционного блока и двух нейронных оснований. Эти улучшения снижают среднеквадратическую ошибку на 8-22% в краткосрочных прогнозах в южной части Тихого океана и лучше сохраняют физическую согласованность.

arxiv arXiv cs.LG · 10 д назад

АСТЕРОИД: трансформатор для прогнозирования многошаговых симуляций молекулярной динамики

АСТЕРОИД — это данные-ориентированный фреймворк, который прогнозирует многошаговые координаты атомов в симуляциях молекулярной динамики без итеративного интегрирования. Он использует архитектуру трансформатора, ориентированную на пространственно-временные зависимости, для моделирования многоуровневых зависимостей, обеспечивая более высокую точность и меньшую вычислительную стоимость по сравнению с существующими методами на данных, полученных из квантовой механики.