Evaluation & benchmarks — korshunov.ai

Evaluation & benchmarks Страница 1 / 42

DataClaw0: Агентная настройка мультимодальных данных из исходных потоков

DataClaw0 вводит агентную парадигму для активного уточнения исходных мультимодальных данных с целью соответствия намерениям пользователя и последующих задач. Оно использует двухэтапную схему, основанную на фактических опорах, для создания масштабного набора данных в пяти областях и объединяет обучение с помощью надзора и GRPO для достижения сильной синхронизации с сложными задачами уточнения. Оценка на генерации видео, VQA и навигации в интерфейсе, DataClaw0 обеспечивает высокую плотность информационного содержания в настраиваемых данных, что позволяет эффективно адаптировать модели при минимальном объеме обучающих данных.

arxiv arXiv cs.LG · 19 ч назад

Модели Transformer чрезвычайно чувствительны к шуму в данных о траектории

Исследование показало, что модели прогнозирования траекторий на основе Transformer значительно ухудшаются при наличии шумовых данных о состоянии объектов. Точность падает в 1,3 раза при умеренном шуме и до 3,9 раз при реальных высоких уровнях шума, что подчеркивает чувствительность моделей и необходимость использования шумных, реальных данных для обучения и разработки стратегий смягчения шума.

arxiv arXiv cs.LG · 19 ч назад

Кадровая система на основе открытых данных определяет топологию городской сети электроснабжения

Новая система использует данные о публичной инфраструктуре и OpenStreetMap для восстановления топологии городской сети электроснабжения от передачи до соединений на уровне зданий. Она успешно отображает сеть для 7330 зданий в районе Альна в Осло, что позволяет проводить детальный анализ электрической системы, включая оптимизацию потоков и исследования устойчивости.

arxiv arXiv cs.LG · 20 ч назад

SOHET: трансформатор для гетерогенных потоков событий

SOHET вводит иерархическую архитектуру трансформатора с таблицевыми кодировщиками, специфичными для типа события, и самосупервизированной предобученной. Он превосходит существующие методы на 5,8% на задаче обнаружения мошенничества Booking.com и достигывает лучших результатов на 6 из 8 задач EBES-бенчмарка.

arxiv arXiv cs.LG · 20 ч назад

Граф разностей для анатомически структурированной медицинской идентификации

Граф разностей (GoD) вводит анатомически структурированную алигнацию разностей для медицинской идентификации изображений. Он представляет изображения в виде анатомических графов, вычисляет разности на соответствующих анатомических участках и фиксирует сигналы идентификации на гомологичных структурах. GoD повышает точность Rank-1 на 7,1 пункта в фундусе и на 3,1 пункта в CXR, при этом демонстрирует лучшую обобщаемость в условиях нулевого обучения.

arxiv arXiv cs.LG · 20 ч назад

VLA-FAIL: Легкая система обнаружения сбоев для моделей визуально-языковых-действий

VLA-FAIL представляет легкую систему обнаружения сбоев для моделей визуально-языковых-действий, использующую расстояние Махаланобиса на последнем слое и согласованность блоков действий, не требуя данных о сбоях или дорогостоящего выбора действий. Система объединяет эти детекторы для достижения надежного и раннего обнаружения сбоев на различных задачах, превосходя базовые методы как по точности, так и по эффективности.

arxiv arXiv cs.LG · 20 ч назад

CAT-Translate: компактные модели перевода японского-английского языка

CAT-Translate представляет семейство малых открытых моделей (от 0,8B до 7B параметров), специализированных на двустороннем переводе японского-английского языка. Используя синтетические параллельные корпуса и двухэтапную методику обучения с применением Multi-Objective GRPO, модели превосходят многозначные модели на реальных тестовых наборах в областях бизнеса, права, медицины, финансов и патентов.

arxiv arXiv cs.LG · 20 ч назад

ADualVUOT: Гетерогенная альгебраическая синхронизация пространства скрытых представлений для несупервизированной адаптации домена

ADualVUOT представляет двойной декодер VAE с непрерывными нормализующими потоками для улучшения гибкости скрытых представлений в медицинской томографии. Он использует расстояние Гаусс-Громова-Вассерштейна для синхронизации доменов и противодействующее усилительное усиление для повышения устойчивости, превосходя предыдущие методы на основе оптимального транспорта на медицинских изображениях.

arxiv arXiv cs.LG · 20 ч назад

Фреймворк LDT-FRL для кибер-устойчивых IoMT

Фреймворк LDT-FRL вводит систему защиты с сохранением конфиденциальности для устройств IoMT, объединяя временной внимательный механизм, лёгкие цифровые двойники и федеративное обучение с подкреплением. Он достигает точности 99,66% и 99,95% на тестах CICDDoS 2019 и TON-IoT, с идеальной F1 на классе MITM, сходится на 81% быстрее, чем ранее известные методы, и обеспечивает интерпретируемость решений защиты через SHAP и Grad-CAM.

arxiv arXiv cs.LG · 20 ч назад

Fast-TurboQuant: Мультипликаторная-безопасная векторная квантование

Fast-TurboQuant представляет метод проекции без умножения, используя структурированный быстрый преобразователь Джонсона-Линдструса. Он заменяет плотные случайные матрицы вращения на инверсию фазы Радемахера и быстрое преобразование Валша-Хадамарда, что снижает арифметические операции до только сложений и улучшает Recall@10 с меньшей среднеквадратичной ошибкой.

arxiv arXiv cs.LG · 21 ч назад

Постобучения улучшения речи с перцептуальными вознаграждениями

Новая методика постобучения использует перцептуальные вознаграждения на основе нескольких метрик для оптимизации моделей улучшения речи. Она напрямую применяет не дифференцируемые метрики, такие как DNSMOS, WER и UTMOS, как вознаграждения через Group Sequence Policy Optimization, достигая лучших результатов на DNS2020. Оценка людьми подтверждает, что комбинация нескольких метрик превосходит подходы на основе одной метрики, снижая риски вознаграждения.

arxiv arXiv cs.LG · 21 ч назад

Пipelines на основе пространства субъекта превосходят аналоги в пространстве шаблона при сегментации подкорковых структур

Пipelines на основе пространства субъекта, основанные на UNet, превосходят аналоги в пространстве шаблона при сегментации подкорковых структур, демонстрируя более высокие значения Dice и более низкие значения HD95 для ядер подталамической области, красного ядра и подстволной нервной ткани. Показатели производительности значительно падают при применении к изображениям 3T, при синтетическом обучении на данных 3T наблюдается лишь незначительное улучшение, что подчеркивает существующий разрыв между 7T и 3T МРТ.

arxiv arXiv cs.LG · 21 ч назад

Глубокое обучение объединяет данные спутников с метеорологическими характеристиками для оценки влажности почвы

Исследование подтверждает метод кросс-корреляции для определения оптимальных временных и глубинных сдвигов между метеорологическими переменными и влажностью почвы. Используя данные спутников и метеорологических измерений на семи сельскохозяйственных участках в юго-западной части Испании, глубокие нейронные сети достигли значительного улучшения: CNN на уровне пикселя достиг R² = 0,877, в то время как гибридная модель CNN-LSTM достигла наивысшей общей производительности с R² = 0,930. Информация о подземной глубине и метеорологические характеристики значительно повысили точность оценки.

arxiv arXiv cs.LG · 21 ч назад

Несоответствие обучения с помощью противоречивых данных для нелинейных моделей

Формальное доказательство показывает, что между риском противоречивого обучения и риском регуляризации в двухслойных сетях не существует эквивалентности. Эмпирические результаты на Wide-ResNets подтверждают, что эта невозможность сохраняется в более глубоких и более выразительных архитектурах.

arxiv arXiv cs.LG · 21 ч назад

Машинное обучение предсказывает высокорисковые полипы кишечника у афроамериканцев

Модель машинного обучения, разработанная на основе клинических данных до колоноскопии, предсказывает высокорисковые полипы кишечника у афроамериканцев. Модель, подтвержденная в разнообразной городской группе, использует демографические, образовательные и данные о сопутствующих заболеваниях для выявления пациентов с повышенным риском, с внешней валидацией, проведенной в 2023-2024 годах.

arxiv arXiv cs.LG · 21 ч назад

JS-Разделение повышает автокорреляционную синхронизацию текста и изображения в GRPO

Исследование вводит JS-разделение в автокорреляционную синхронизацию текста и изображения в стиле GRPO, демонстрируя его эффективность в балансировке оптимизации политики и разнообразия генерации. Эксперименты на LlamaGen и Janus-7B показывают, что JS-разделение достигает лучших или конкурентоспособных результатов по всем метрикам, сохраняя разнообразные выводы.

arxiv arXiv cs.LG · 21 ч назад

Анонимизированное распределенное обучение временных графов для кибер-устойчивых систем Интернета вещей

В статье представлено распределенное решение TGCN-A2C, обеспечивающее 99,48% и 99,61% точности на тестовых данных CICDDoS 2019 и TON-IoT, превосходя Fed-Inforce-Fusion на 0,21 процентный пункт. Включает обнаружение аномалий, оценку на основе цифрового двойника, адаптивный выбор действий и улучшенный слой ловушек, при этом все основные классы атак достигают значений F1 выше 0,92 и 0.94 соответственно, и обеспечивает пост-объяснение с помощью SHAP, LIME, Grad-CAM и анализа контрапримеров.

arxiv arXiv cs.LG · 21 ч назад

Аналитические градиенты политик для эффективного непрерывного управления

Аналитические градиенты политик (APG) обеспечивают точное вычисление градиентов с помощью обратного распространения через симуляцию при дифференцируемых динамических характеристиках среды. APG превосходит Проxимую политическую оптимизацию (PPO) на четырех задачах непрерывного управления, демонстрируя превосходную эффективность по образцам и обучению, благодаря сегментированной схеме обратного распространения, которая снижает деградацию градиентов на задачах с длинными горизонтами.

media Hugging Face Forums · 22 ч назад

Wav2vec2 и WavLM классификаторы аудио застряли на 33% точности

Пользователь сообщает, что настройка wav2vec2-base или wavlm-base-plus для классификации аудио на 3 класса достигает лишь 33% точности, что соответствует уровню случайности. Модель обучалась с обновлением только заголовка классификации, с использованием заполненных кусков длительностью 1,0 секунды без масок внимания, и с коэффициентом обучения 1e-3, что приводит к плохим результатам, несмотря на несбалансированность классов и короткие входные куски.

arxiv arXiv cs.CL · 23 ч назад

ParaPairAudioBench: Бенчмарк для оценки паралингвистических характеристик речи

ParaPairAudioBench представляет парный бенчмарк из 5175 пар аудио по пяти паралингвистическим измерениям. Он показывает, что текущие LALM-оценщики отстают от человеческих оценок в среднем на 32% и не демонстрируют калибровку, особенно в случаях равенства, где отказ от оценки является правильным.