Multimodal
arxiv arXiv cs.CL · 2 д назад

ViGiL3D++ обеспечивает генерацию разнообразных языковых запросов для 3D визуального заземления

ViGiL3D++ представляет масштабируемый, сцен-независимый метод, генерирующий разнообразные визуальные запросы заземления путем комбинирования выбора ограничений в сцен-графах с генерацией языка на основе больших языковых моделей. Модель превосходит существующие модели на нескольких бенчмарках 3D визуального заземления и выявляет ключевые ограничения современных визуально-языковых моделей.

arxiv arXiv cs.CL · 2 д назад

Использование международного фонетического алфавита для токенизации улучшает производительность многоречевых моделей языка

Новый подход использует Международный фонетический алфавит для создания токенизаторов, независимых от языка, для многоречевых моделей. Обучение сопоставленных текстов и токенизаторов на подсловах для 24 языков и 14 письменных систем показывает, что токенизаторы на основе фонетики улучшают качество токенизации, особенно для нелатинских письменных систем, и лучше обобщаются на неизвестные языки и письменные системы.

arxiv arXiv cs.CL · 2 д назад

Beaver: агент-интерфейс для научной кураторской работы из мультимодальных источников

Beaver — это агент-интерфейс, который извлекает структурированную информацию из научных статей за счёт интеграции инструментов мультимодальной поддержки, структурирования задач и автономного поиска на основе артефактов. Он достигает 81,0 по показателю Gold-Referenced Attribute Score, превосходя передовые агенты на более чем 23 балла, с ключевыми достижениями по высокозначимым атрибутам, требующим мультимодального мышления.

arxiv arXiv cs.CL · 2 д назад

Dementia-Agents: Мультимодальный мультимодальный системный подход к стадированию деменции

Dementia-Agents представляет клинически согласованный мультимодальный фреймворк для стадирования и фенотипирования деменции в реальных условиях. Он повышает диагностическую производительность по сравнению с монолитными моделями и предыдущими системами, при сохранении уровня интерпретируемости на уровне области, используя данные из 1066 пациентов двух когнитивных неврологических служб.

arxiv arXiv cs.CL · 2 д назад

MedLayXPlain: Оценка разрыва между экспертными и непрофессиональными знаниями в медицинских моделях визуально-языковых

MedLayXPlain представляет первый масштабный бенчмарк для генерации медицинских непрофессиональных языковых образцов, содержащий 122 789 образцов с региональной привязкой в восьми модальностях изображений. Он оценивает медицинские модели визуально-языковых систем на согласованности между экспертными и непрофессиональными знаниями с использованием иерархической системы онтологии и лёгкого оценщика, выявляя систематический разрыв: экспертный уровень производительности при описании изображений сопровождается значительным снижением в непрофессиональной речи, при этом общие модели не обладают клинической точностью.

arxiv arXiv cs.CL · 2 д назад

CAT-Translate: Компактные модели японского-английского перевода превосходят многозначные в реальных задачах

CAT-Translate представляет семейство компактных, открытых моделей, специализирующихся на переводе японского на английский. Используя синтетические параллельные корпуса и двухэтапную методику настройки, модели достигают превосходных результатов на реальных тестах в областях бизнеса, права, медицины, финансов и патентов, превосходя большие многозначные модели в практическом применении.

media r/LocalLLaMA · 3 д назад

Gemma4-12B-QAT Uncensored Balanced Released with 60% Speed Boost via MTP

Модель Gemma4-12B-QAT Uncensored Balanced теперь доступна, с улучшением скорости на 60% за счёт спекулятивного декодирования на основе многотокенного предсказания (MTP). В ней используется квантование Q4_K_M, поддержка визуальных данных через mmproj и стабильное генерирование без циклов или смещения контекста, что делает её идеальной для задач креативного написания и эмоционального интеллекта.

media r/LocalLLaMA · 3 д назад

Результаты и рекомендации по обновленному бенчмарку визуальных моделей

Обновленный бенчмарк локальных визуально-языковых моделей оценивает 23 модели по 30 изображениям с 3 тестами каждое, что в сумме составляет 2070 тестов и 60 до 70 часов инференса. Самой эффективной моделью является Qwen3.6 27B (nothink) на Q4 с оценкой 79.6, за ней следует Qwen3.5 4B (nothink) на Q4, а затем Qwen3-VL 8B на Q8. Ключевые выводы включают снижение производительности визуальных моделей при использовании режима мышления, низкую эффективность моделей с архитектурой MoE по сравнению с плотными моделями, а также отсутствие универсального улучшения результатов при квантовании на Q8.

lab NVIDIA Technical Blog · 4 д назад

NVIDIA представляет XR AI для AR-окularов и носимых устройств

NVIDIA представляет XR AI для устранения разрыва в инфраструктуре для разработчиков, создающих AI-опыты на AR-окулярных и XR-устройствах. Решение позволяет интегрировать потоки данных с датчиков в реальном времени, многомодальные ИИ-модели и корпоративные данные в специализированные среды выполнения устройств, упрощая разработку ИИ-агентов для носимых устройств.

media r/LocalLLaMA · 4 д назад

AllenAI выпустил модели MolmoMotion для прогнозирования движений в будущем

AllenAI выпустил две модели MolmoMotion, которые прогнозируют трёхмерные траектории точек на основе коротких историй видео и естественных языковых инструкций. Одна модель использует историю из трёх кадров, другая — из одного кадра, что позволяет прогнозировать будущее движение объектов в трёхмерном пространстве.

media r/LocalLLaMA · 4 д назад

SupraLabs запускает семейство моделей Any2Any

SupraLabs представила модель Supra-A2A-Nano-Exp, многомодальную модель на 30 млн параметров, которая объединяет текст, изображения и видео в один поток токенов. Модель рассматривает все модальности как токены в общей последовательности, позволяя проводить моделирование языка на совокупном словаре из 50 520 токенов без отдельных визуальных кодировщиков или модулей перекрестного внимания.

media r/LocalLLaMA · 5 д назад

Исследовательский проект: Внедрение естественного языкового стратегического намерения в многоагентные футбольные политики

Исследовательский проект изучает использование естественных языковых стратегических инструкций от людей для направления автономных ИИ-агентов в футбольной имитации. Система позволяет человеческим тренерам выдавать высокие инструкции, такие как "высокая давление" или "использовать левую сторону", которые ИИ-агенты затем адаптируют в реальном времени в динамической командной среде.

media r/LocalLLaMA · 5 д назад

SupraLabs выпустил модель SupraVL-Nano-900k для обработки изображений и языка

SupraLabs представил модель SupraVL-Nano-900k, полностью прозрачную модель из 900 тысяч параметров, обученную с нуля на наборе Flickr8k. Модель включает в себя CNN-энкодер, декодер стиля GPT-2 и метод объединения с помощью префикса, все компоненты которой полностью документированы и разработаны с целью образовательной ясности.

media r/LocalLLaMA · 5 д назад

Комиссия выбирает консорциум EUROPA в качестве победителя конкурса Frontier AI Grande Challenge

Европейская комиссия выбрала консорциум EUROPA, возглавляемый Domyn, для разработки открытого фронтового ИИ-модели на всех 24 языках ЕС. Проект, запущенный в феврале 2026 года, направлен на создание модели с более чем 400 миллиардами параметров, демонстрирующей способность Европы строить передовые ИИ-системы на собственной инфраструктуре.

arxiv arXiv cs.AI · 6 д назад

SARLO-80: Высокоразрешающий SAR-оптический-текстовый набор данных выпущен

SARLO-80 — это масштабный набор данных, объединяющий очень высокоразрешающие SAR SLC-изображения, выровненные оптические изображения и естественные языковые описания. В него включены 119 566 троек из 2 500 глобальных сцен в 72 странах, стандартизированных на сетку 80 см в сланцевом диапазоне с пиксельным выравниванием и тремя вариантами описаний. Набор данных доступен в открытом доступе на Hugging Face для многомодальных задач обучения в исходной SAR геометрии.

arxiv arXiv cs.LG · 6 д назад

FedMGS: Федеративное модальность-осознанное синтезирование графа для несбалансированного многомодального обучения

FedMGS решает проблемы несбалансированности модальностей на уровне клиентов и узлов в федеративном обучении графов, синтезируя скрытые семантические представления. Оно интегрирует доступность-осознанного граф-энкодера, синтезатор семантики с использованием прототипов и механизм объединения с калибровкой надежности для восстановления отсутствующих модальностей при сохранении семантической синхронизации. Эксперименты показывают, что FedMGS обеспечивает рост производительности до 17,41% по сравнению с базовыми методами на четырех задачах.

arxiv arXiv cs.LG · 6 д назад

Датасет RefRad2D обеспечивает масштабируемую пространственную сопоставимость в рентгенологии

RefRad2D — это масштабный билингвальный датасет из 1,2 млн пар изображений КТ и МРТ и текстов из клинической практики. Обученный на этом данных, RadGrounder достигает конкурентоспособных результатов в задачах визуального вопроса-ответа и генерации отчётов, при этом сохраняет качество языка за счёт сопоставления пространственных элементов без снижения производительности.

arxiv arXiv cs.LG · 6 д назад

UNIEGO: Прокси-среди единая эгоцентрическая видеопредставление

UNIEGO вводит иерархическую многоклассовую систему дистилляции, использующую прокси-модели для медиации передачи знаний из девяти различных учителей по точкам зрения и модальностям. Этап селективной дистилляции прокси (SPD) адаптивно выбирает надежные прокси во время обучения, улучшая качество и стабильность представлений. UNIEGO достигает лучших результатов в распознавании действий, поиске видео и сегментации действий на базовых данных эго-экзо.

arxiv arXiv cs.CL · 6 д назад

Датасет RefRad2D обеспечивает масштабируемую пространственную анатомическую опору в рентгенологии

RefRad2D — это масштабный билингвальный датасет из 1,2 млн пар изображений КТ и МРТ и текстов из клинической практики. Обученный на этом данных, RadGrounder достигает конкурентоспособных результатов в задаче визуального вопроса-ответа и обеспечивает пространственную опору без ухудшения качества языковой обработки, что позволяет получать проверяемые выводы в рентгенологии.

arxiv arXiv cs.CL · 6 д назад

StylisticBias: Визуальные подсказки определяют большинство социальных предвзятостей в МЛЛМ

StylisticBias представляет контролируемую метрику для оценки социальных предвзятостей на уровне атрибутов в мультимодальных больших языковых моделях. Исследование показывает, что возраст и тип тела доминируют в эффектах на уровне идентичности, в то время как стиль моды и 15 ключевых визуальных атрибутов определяют большинство предвзятостей, что объясняет почти 80% вариации. Метрика подчеркивает, что суждения моделей наиболее чувствительны к визуальным подсказкам, особенно в контекстах, связанных с экономическим положением и стилем.