Multimodal
arxiv arXiv cs.CL · 8 д назад

MultiClin Benchmark для мультискриптовой ASR в клинических условиях

MultiClin представляет клинический бенчмарк ASR, который оценивает устойчивость моделей к вариабельности мультискриптов. Оно показывает, что мультискриптовая оценка превосходит традиционные методы с одним эталоном, и унификация скриптов обеспечивает наилучшую производительность ASR, в то время как несогласованные отображения скриптов увеличивают орфографическую неопределённость.

arxiv arXiv cs.CL · 8 д назад

ChLogic: Проверка устойчивости логического мышления в китайских выражениях

ChLogic оценивает, насколько хорошо большие языковые модели сохраняют логическое мышление при выражении английских логических структур на китайском языке. Исследование выявляет постоянный разрыв в производительности между английским и китайским, при котором обратная трансляция улучшает результаты на общих задачах, но ухудшает результаты на сложных задачах. Бенчмарк подчёркивает влияние поверхностной реализации, артефактов перевода и специфических поведений моделей на мультиязычное мышление.

arxiv arXiv cs.CL · 9 д назад

Символьная неформализация в проекте Informath

Проект Informath демонстрирует символическую неформализацию для преобразования формальных математических доказательств в естественный, гладкий и точный язык. Он использует Dedukti как центральный узел, соединяющий системы доказательств, такие как Agda, Lean и Rocq, с Grammatical Framework, обеспечивающим правильность языковой структуры на нескольких языках.

arxiv arXiv cs.CL · 9 д назад

ContextRL: контекстуально-оптимизированный RL для LLMs

ContextRL вводит косвенную вспомогательную цель для улучшения долгосрочного мышления и многомодальных характеристик в LLMs. Модель получает награду за выбор контекста, поддерживающего пару запрос-ответ, используя контрастные данные о контексте из траекторий кодирующих агентов и изображений, связанных с визуальными вопросами. ContextRL достигает роста на +2,2% и +1,8% по сравнению с стандартными методами на тестах долгосрочного мышления и визуальных вопросов, причём рост объясняется выбором цели, а не дополнением данных.

arxiv arXiv cs.AI · 9 д назад

Символическая неформализация в проекте Informath

Проект Informath демонстрирует символическую неформализацию для преобразования формальной математики в естественный, гладкий и точный язык. В проекте используется Dedukti как центральная система доказательств и Grammatical Framework для обеспечения лингвистической корректности на нескольких языках, что позволяет получать человеко-читаемые выводы из доказательств, сгенерированных ИИ.

arxiv arXiv cs.AI · 9 д назад

BinTrack: Открытый источник спектральный QA с двоичным поиском траектории

BinTrack — это полностью открытый источник агент по спектральному вопросу, использующий двоичный поиск по траектории робота для нахождения ответов. Он достигает на 22,8% более высокой точности по сравнению с другими открытыми методами и соответствует производительности закрытых моделей на наиболее сложной глобальной категории бенчмарка SpaceLocQA. Система также обеспечивает более чем в 1,5 раза более быструю инференс и вводит GangnamLoop — реальный внешний бенчмарк, собранный с помощью четырёхногого робота.

arxiv arXiv cs.AI · 9 д назад

CrossMaps: Семантическая картирование с учетом уверенности для навигации ровера

CrossMaps — это в реальном времени, с учетом уверенности, семантическая картирование pipeline, использующий данные RGB-D для создания карт, доступных для запросов на языке. Оно интегрирует многомасштабные векторные вложения CLIP с архитектурой двойной памяти — краткосрочной и долгосрочной памяти — для агрегации визуальных наблюдений и стимулирования согласованных, уверенных ячеек как постоянных семантических ориентиров. Система позволяет использовать естественные языковые запросы для руководства навигацией ровера через семантические тепловые карты.

arxiv arXiv cs.AI · 9 д назад

FusionRS: Первый масштабный датасет RGB-инфракрасного дистанционного зондирования

FusionRS представляет первый масштабный датасет RGB-инфракрасно-текстового типа для моделирования визуально-языковых моделей дистанционного зондирования. Он синхронизирует RGB и инфракрасные изображения с инфракрасно-осознанными описаниями, позволяя использовать двумодальные визуально-языковые основные модели. Эксперименты показывают улучшение синхронизации RGB-инфракрасных изображений, поиска и описания, при этом исследования с устранением факторов подтверждают критическую роль модальности-специфического текстового надзора.

arxiv arXiv cs.LG · 9 д назад

CrossMaps: Семантическая картирование с учетом уверенности для навигации ровера

CrossMaps — это реальное время, с учетом уверенности, семантическое картирование, которое использует данные RGB-D для создания карт, доступных для запросов на языке. Оно интегрирует многомасштабные векторные вложения CLIP с архитектурой двойной памяти — краткосрочной и долгосрочной памяти — для агрегации визуальных наблюдений и стимулирования согласованных, уверенных ячеек как постоянных семантических ориентиров. Система позволяет использовать естественные языковые запросы для направления навигации ровера через семантические тепловые карты.

arxiv arXiv cs.LG · 9 д назад

Многоцентровый бенчмарк для диагностики заболеваний брюшной полости на не Contrast CT

Новый многоцентровый бенчмарк позволяет диагностировать заболевания брюшной полости и генерировать отчеты на основе не контрастного КТ, синтезируя данные контрастного усиления. В наборе данных представлены парные исследования NCCT-CECT и отчеты из двух центров, демонстрируя, что NCCT достигает средних значений AUC по многим органам на внутреннем тестировании 69,1% и на внешнем тестировании 63,1%. Бенчмарк и код опубликованы для поддержки исследований в области безопасных, без контрастных протоколов абдоминальной визуализации.

arxiv arXiv cs.LG · 9 д назад

Фильтрованные конформные эллипсоиды для граф-ориентированных временных рядов

Новый метод, называемый фильтрованными конформными эллипсоидами, обеспечивает прогнозные множества для многомерных временных рядов, используя замороженный фильтр состояния для генерации прогнозных средних значений и ковариаций, а затем применяя раздельную конформную калибровку к оценкам Махаланобиса. Метод обеспечивает покрытие при наличии зависимости за счёт сжатия в квоте предиктивного закона, с теоретическими границами, полученными при условиях гауссовой проекции и наблюдаемости, и демонстрирует более тонкие эллипсоиды на граф-ориентированных тестах трафика по сравнению с статическими и нефильтрованными базовыми методами.

arxiv arXiv cs.LG · 9 д назад

Математический обзор анализа пространства форм в машинном обучении

Настоящий обзор представляет математическую структуру для анализа геометрических данных, объединяющую дифференциальную геометрию, статистику и машинное обучение. В нем описывается единый поток для представления форм, геодезических метрик, статистического анализа и обучения с геометрическим учетом, позволяющий изучать вариабельность форм и структурные траектории в популяциях и во времени. Применения охватывают биологию, медицину, антропологию и компьютерное зрение, подчеркивая трудности в обработке нелинейных и несогласованных геометрических вариаций.