Evaluation & benchmarks — korshunov.ai

Evaluation & benchmarks Страница 1 / 44

SOHET: трансформатор для гетерогенных потоков событий

SOHET вводит иерархическую архитектуру трансформатора с таблицевыми кодировщиками, специфичными для типа события, и самосупервизированной предобученной. Он превосходит существующие методы на 5,8% на задаче обнаружения мошенничества Booking.com и достигывает лучших результатов на 6 из 8 задач EBES-бенчмарка.

arxiv arXiv cs.LG · 1 д назад

Граф разностей для анатомически структурированной медицинской идентификации

Граф разностей (GoD) вводит анатомически структурированную алигнацию разностей для медицинской идентификации изображений. Он представляет изображения в виде анатомических графов, вычисляет разности на соответствующих анатомических участках и фиксирует сигналы идентификации на гомологичных структурах. GoD повышает точность Rank-1 на 7,1 пункта в фундусе и на 3,1 пункта в CXR, при этом демонстрирует лучшую обобщаемость в условиях нулевого обучения.

arxiv arXiv cs.LG · 1 д назад

VLA-FAIL: Легкая система обнаружения сбоев для моделей визуально-языковых-действий

VLA-FAIL представляет легкую систему обнаружения сбоев для моделей визуально-языковых-действий, использующую расстояние Махаланобиса на последнем слое и согласованность блоков действий, не требуя данных о сбоях или дорогостоящего выбора действий. Система объединяет эти детекторы для достижения надежного и раннего обнаружения сбоев на различных задачах, превосходя базовые методы как по точности, так и по эффективности.

arxiv arXiv cs.LG · 1 д назад

CAT-Translate: компактные модели перевода японского-английского языка

CAT-Translate представляет семейство малых открытых моделей (от 0,8B до 7B параметров), специализированных на двустороннем переводе японского-английского языка. Используя синтетические параллельные корпуса и двухэтапную методику обучения с применением Multi-Objective GRPO, модели превосходят многозначные модели на реальных тестовых наборах в областях бизнеса, права, медицины, финансов и патентов.

arxiv arXiv cs.LG · 1 д назад

ADualVUOT: Гетерогенная альгебраическая синхронизация пространства скрытых представлений для несупервизированной адаптации домена

ADualVUOT представляет двойной декодер VAE с непрерывными нормализующими потоками для улучшения гибкости скрытых представлений в медицинской томографии. Он использует расстояние Гаусс-Громова-Вассерштейна для синхронизации доменов и противодействующее усилительное усиление для повышения устойчивости, превосходя предыдущие методы на основе оптимального транспорта на медицинских изображениях.

arxiv arXiv cs.LG · 1 д назад

Фреймворк LDT-FRL для кибер-устойчивых IoMT

Фреймворк LDT-FRL вводит систему защиты с сохранением конфиденциальности для устройств IoMT, объединяя временной внимательный механизм, лёгкие цифровые двойники и федеративное обучение с подкреплением. Он достигает точности 99,66% и 99,95% на тестах CICDDoS 2019 и TON-IoT, с идеальной F1 на классе MITM, сходится на 81% быстрее, чем ранее известные методы, и обеспечивает интерпретируемость решений защиты через SHAP и Grad-CAM.

arxiv arXiv cs.LG · 1 д назад

Fast-TurboQuant: Мультипликаторная-безопасная векторная квантование

Fast-TurboQuant представляет метод проекции без умножения, используя структурированный быстрый преобразователь Джонсона-Линдструса. Он заменяет плотные случайные матрицы вращения на инверсию фазы Радемахера и быстрое преобразование Валша-Хадамарда, что снижает арифметические операции до только сложений и улучшает Recall@10 с меньшей среднеквадратичной ошибкой.

arxiv arXiv cs.LG · 1 д назад

Постобучения улучшения речи с перцептуальными вознаграждениями

Новая методика постобучения использует перцептуальные вознаграждения на основе нескольких метрик для оптимизации моделей улучшения речи. Она напрямую применяет не дифференцируемые метрики, такие как DNSMOS, WER и UTMOS, как вознаграждения через Group Sequence Policy Optimization, достигая лучших результатов на DNS2020. Оценка людьми подтверждает, что комбинация нескольких метрик превосходит подходы на основе одной метрики, снижая риски вознаграждения.

arxiv arXiv cs.LG · 1 д назад

Пipelines на основе пространства субъекта превосходят аналоги в пространстве шаблона при сегментации подкорковых структур

Пipelines на основе пространства субъекта, основанные на UNet, превосходят аналоги в пространстве шаблона при сегментации подкорковых структур, демонстрируя более высокие значения Dice и более низкие значения HD95 для ядер подталамической области, красного ядра и подстволной нервной ткани. Показатели производительности значительно падают при применении к изображениям 3T, при синтетическом обучении на данных 3T наблюдается лишь незначительное улучшение, что подчеркивает существующий разрыв между 7T и 3T МРТ.

arxiv arXiv cs.LG · 1 д назад

Глубокое обучение объединяет данные спутников с метеорологическими характеристиками для оценки влажности почвы

Исследование подтверждает метод кросс-корреляции для определения оптимальных временных и глубинных сдвигов между метеорологическими переменными и влажностью почвы. Используя данные спутников и метеорологических измерений на семи сельскохозяйственных участках в юго-западной части Испании, глубокие нейронные сети достигли значительного улучшения: CNN на уровне пикселя достиг R² = 0,877, в то время как гибридная модель CNN-LSTM достигла наивысшей общей производительности с R² = 0,930. Информация о подземной глубине и метеорологические характеристики значительно повысили точность оценки.

arxiv arXiv cs.LG · 1 д назад

Несоответствие обучения с помощью противоречивых данных для нелинейных моделей

Формальное доказательство показывает, что между риском противоречивого обучения и риском регуляризации в двухслойных сетях не существует эквивалентности. Эмпирические результаты на Wide-ResNets подтверждают, что эта невозможность сохраняется в более глубоких и более выразительных архитектурах.

arxiv arXiv cs.LG · 1 д назад

Машинное обучение предсказывает высокорисковые полипы кишечника у афроамериканцев

Модель машинного обучения, разработанная на основе клинических данных до колоноскопии, предсказывает высокорисковые полипы кишечника у афроамериканцев. Модель, подтвержденная в разнообразной городской группе, использует демографические, образовательные и данные о сопутствующих заболеваниях для выявления пациентов с повышенным риском, с внешней валидацией, проведенной в 2023-2024 годах.

arxiv arXiv cs.LG · 1 д назад

JS-Разделение повышает автокорреляционную синхронизацию текста и изображения в GRPO

Исследование вводит JS-разделение в автокорреляционную синхронизацию текста и изображения в стиле GRPO, демонстрируя его эффективность в балансировке оптимизации политики и разнообразия генерации. Эксперименты на LlamaGen и Janus-7B показывают, что JS-разделение достигает лучших или конкурентоспособных результатов по всем метрикам, сохраняя разнообразные выводы.

arxiv arXiv cs.LG · 1 д назад

Анонимизированное распределенное обучение временных графов для кибер-устойчивых систем Интернета вещей

В статье представлено распределенное решение TGCN-A2C, обеспечивающее 99,48% и 99,61% точности на тестовых данных CICDDoS 2019 и TON-IoT, превосходя Fed-Inforce-Fusion на 0,21 процентный пункт. Включает обнаружение аномалий, оценку на основе цифрового двойника, адаптивный выбор действий и улучшенный слой ловушек, при этом все основные классы атак достигают значений F1 выше 0,92 и 0.94 соответственно, и обеспечивает пост-объяснение с помощью SHAP, LIME, Grad-CAM и анализа контрапримеров.

arxiv arXiv cs.LG · 1 д назад

Аналитические градиенты политик для эффективного непрерывного управления

Аналитические градиенты политик (APG) обеспечивают точное вычисление градиентов с помощью обратного распространения через симуляцию при дифференцируемых динамических характеристиках среды. APG превосходит Проxимую политическую оптимизацию (PPO) на четырех задачах непрерывного управления, демонстрируя превосходную эффективность по образцам и обучению, благодаря сегментированной схеме обратного распространения, которая снижает деградацию градиентов на задачах с длинными горизонтами.

media Hugging Face Forums · 1 д назад

Wav2vec2 и WavLM классификаторы аудио застряли на 33% точности

Пользователь сообщает, что настройка wav2vec2-base или wavlm-base-plus для классификации аудио на 3 класса достигает лишь 33% точности, что соответствует уровню случайности. Модель обучалась с обновлением только заголовка классификации, с использованием заполненных кусков длительностью 1,0 секунды без масок внимания, и с коэффициентом обучения 1e-3, что приводит к плохим результатам, несмотря на несбалансированность классов и короткие входные куски.

arxiv arXiv cs.CL · 1 д назад

ParaPairAudioBench: Бенчмарк для оценки паралингвистических характеристик речи

ParaPairAudioBench представляет парный бенчмарк из 5175 пар аудио по пяти паралингвистическим измерениям. Он показывает, что текущие LALM-оценщики отстают от человеческих оценок в среднем на 32% и не демонстрируют калибровку, особенно в случаях равенства, где отказ от оценки является правильным.

arxiv arXiv cs.CL · 1 д назад

AI-PAVE-Br: LLM-Base PAVE для бразильского электронного коммерции

AI-PAVE-Br использует большие языковые модели для улучшения извлечения значений атрибутов продуктов в бразильском электронном коммерции. Система превосходит традиционные методы распознавания сущностей, при этом новый набор Golden Set предоставляет ручно аннотированный стандарт для португальских данных о продуктах.

arxiv arXiv cs.CL · 1 д назад

DREAM: авторегрессивное обучение для плотных векторов поиска

DREAM использует авторегрессивную предсказание следующего токена для контроля процесса обучения векторов поиска. В него вводятся оценки сходства запроса-документа в внимательные головы замороженной языковой модели, что позволяет проводить обратное распространение градиентов для оптимизации поискового модуля. DREAM превосходит базовые методы на тестах BEIR и RTEB при различных масштабах моделей.

arxiv arXiv cs.CL · 1 д назад

Выпущена версия v0.1 CN-NewsTTS Bench

CN-NewsTTS Bench v0.1 — это открытая база для оценки способности китайских систем синтеза речи правильно произносить исходный текст новостей. В ней содержатся 200 разработочных и 800 публичных тестовых записей, 992 автоматически оцениваемых целей и результаты для семи систем синтеза речи, при этом лучшая система достигла строгой точности 0.879, а несколько других — ниже 0.60.