Evaluation & benchmarks — korshunov.ai

Evaluation & benchmarks Страница 1 / 43

Фреймворк LDT-FRL для кибер-устойчивых IoMT

Фреймворк LDT-FRL вводит систему защиты с сохранением конфиденциальности для устройств IoMT, объединяя временной внимательный механизм, лёгкие цифровые двойники и федеративное обучение с подкреплением. Он достигает точности 99,66% и 99,95% на тестах CICDDoS 2019 и TON-IoT, с идеальной F1 на классе MITM, сходится на 81% быстрее, чем ранее известные методы, и обеспечивает интерпретируемость решений защиты через SHAP и Grad-CAM.

arxiv arXiv cs.LG · 23 ч назад

Fast-TurboQuant: Мультипликаторная-безопасная векторная квантование

Fast-TurboQuant представляет метод проекции без умножения, используя структурированный быстрый преобразователь Джонсона-Линдструса. Он заменяет плотные случайные матрицы вращения на инверсию фазы Радемахера и быстрое преобразование Валша-Хадамарда, что снижает арифметические операции до только сложений и улучшает Recall@10 с меньшей среднеквадратичной ошибкой.

arxiv arXiv cs.LG · 23 ч назад

Постобучения улучшения речи с перцептуальными вознаграждениями

Новая методика постобучения использует перцептуальные вознаграждения на основе нескольких метрик для оптимизации моделей улучшения речи. Она напрямую применяет не дифференцируемые метрики, такие как DNSMOS, WER и UTMOS, как вознаграждения через Group Sequence Policy Optimization, достигая лучших результатов на DNS2020. Оценка людьми подтверждает, что комбинация нескольких метрик превосходит подходы на основе одной метрики, снижая риски вознаграждения.

arxiv arXiv cs.LG · 23 ч назад

Пipelines на основе пространства субъекта превосходят аналоги в пространстве шаблона при сегментации подкорковых структур

Пipelines на основе пространства субъекта, основанные на UNet, превосходят аналоги в пространстве шаблона при сегментации подкорковых структур, демонстрируя более высокие значения Dice и более низкие значения HD95 для ядер подталамической области, красного ядра и подстволной нервной ткани. Показатели производительности значительно падают при применении к изображениям 3T, при синтетическом обучении на данных 3T наблюдается лишь незначительное улучшение, что подчеркивает существующий разрыв между 7T и 3T МРТ.

arxiv arXiv cs.LG · 23 ч назад

Глубокое обучение объединяет данные спутников с метеорологическими характеристиками для оценки влажности почвы

Исследование подтверждает метод кросс-корреляции для определения оптимальных временных и глубинных сдвигов между метеорологическими переменными и влажностью почвы. Используя данные спутников и метеорологических измерений на семи сельскохозяйственных участках в юго-западной части Испании, глубокие нейронные сети достигли значительного улучшения: CNN на уровне пикселя достиг R² = 0,877, в то время как гибридная модель CNN-LSTM достигла наивысшей общей производительности с R² = 0,930. Информация о подземной глубине и метеорологические характеристики значительно повысили точность оценки.

arxiv arXiv cs.LG · 23 ч назад

Несоответствие обучения с помощью противоречивых данных для нелинейных моделей

Формальное доказательство показывает, что между риском противоречивого обучения и риском регуляризации в двухслойных сетях не существует эквивалентности. Эмпирические результаты на Wide-ResNets подтверждают, что эта невозможность сохраняется в более глубоких и более выразительных архитектурах.

arxiv arXiv cs.LG · 1 д назад

Машинное обучение предсказывает высокорисковые полипы кишечника у афроамериканцев

Модель машинного обучения, разработанная на основе клинических данных до колоноскопии, предсказывает высокорисковые полипы кишечника у афроамериканцев. Модель, подтвержденная в разнообразной городской группе, использует демографические, образовательные и данные о сопутствующих заболеваниях для выявления пациентов с повышенным риском, с внешней валидацией, проведенной в 2023-2024 годах.

arxiv arXiv cs.LG · 1 д назад

JS-Разделение повышает автокорреляционную синхронизацию текста и изображения в GRPO

Исследование вводит JS-разделение в автокорреляционную синхронизацию текста и изображения в стиле GRPO, демонстрируя его эффективность в балансировке оптимизации политики и разнообразия генерации. Эксперименты на LlamaGen и Janus-7B показывают, что JS-разделение достигает лучших или конкурентоспособных результатов по всем метрикам, сохраняя разнообразные выводы.

arxiv arXiv cs.LG · 1 д назад

Анонимизированное распределенное обучение временных графов для кибер-устойчивых систем Интернета вещей

В статье представлено распределенное решение TGCN-A2C, обеспечивающее 99,48% и 99,61% точности на тестовых данных CICDDoS 2019 и TON-IoT, превосходя Fed-Inforce-Fusion на 0,21 процентный пункт. Включает обнаружение аномалий, оценку на основе цифрового двойника, адаптивный выбор действий и улучшенный слой ловушек, при этом все основные классы атак достигают значений F1 выше 0,92 и 0.94 соответственно, и обеспечивает пост-объяснение с помощью SHAP, LIME, Grad-CAM и анализа контрапримеров.

arxiv arXiv cs.LG · 1 д назад

Аналитические градиенты политик для эффективного непрерывного управления

Аналитические градиенты политик (APG) обеспечивают точное вычисление градиентов с помощью обратного распространения через симуляцию при дифференцируемых динамических характеристиках среды. APG превосходит Проxимую политическую оптимизацию (PPO) на четырех задачах непрерывного управления, демонстрируя превосходную эффективность по образцам и обучению, благодаря сегментированной схеме обратного распространения, которая снижает деградацию градиентов на задачах с длинными горизонтами.

media Hugging Face Forums · 1 д назад

Wav2vec2 и WavLM классификаторы аудио застряли на 33% точности

Пользователь сообщает, что настройка wav2vec2-base или wavlm-base-plus для классификации аудио на 3 класса достигает лишь 33% точности, что соответствует уровню случайности. Модель обучалась с обновлением только заголовка классификации, с использованием заполненных кусков длительностью 1,0 секунды без масок внимания, и с коэффициентом обучения 1e-3, что приводит к плохим результатам, несмотря на несбалансированность классов и короткие входные куски.

arxiv arXiv cs.CL · 1 д назад

ParaPairAudioBench: Бенчмарк для оценки паралингвистических характеристик речи

ParaPairAudioBench представляет парный бенчмарк из 5175 пар аудио по пяти паралингвистическим измерениям. Он показывает, что текущие LALM-оценщики отстают от человеческих оценок в среднем на 32% и не демонстрируют калибровку, особенно в случаях равенства, где отказ от оценки является правильным.

arxiv arXiv cs.CL · 1 д назад

AI-PAVE-Br: LLM-Base PAVE для бразильского электронного коммерции

AI-PAVE-Br использует большие языковые модели для улучшения извлечения значений атрибутов продуктов в бразильском электронном коммерции. Система превосходит традиционные методы распознавания сущностей, при этом новый набор Golden Set предоставляет ручно аннотированный стандарт для португальских данных о продуктах.

arxiv arXiv cs.CL · 1 д назад

DREAM: авторегрессивное обучение для плотных векторов поиска

DREAM использует авторегрессивную предсказание следующего токена для контроля процесса обучения векторов поиска. В него вводятся оценки сходства запроса-документа в внимательные головы замороженной языковой модели, что позволяет проводить обратное распространение градиентов для оптимизации поискового модуля. DREAM превосходит базовые методы на тестах BEIR и RTEB при различных масштабах моделей.

arxiv arXiv cs.CL · 1 д назад

Выпущена версия v0.1 CN-NewsTTS Bench

CN-NewsTTS Bench v0.1 — это открытая база для оценки способности китайских систем синтеза речи правильно произносить исходный текст новостей. В ней содержатся 200 разработочных и 800 публичных тестовых записей, 992 автоматически оцениваемых целей и результаты для семи систем синтеза речи, при этом лучшая система достигла строгой точности 0.879, а несколько других — ниже 0.60.

arxiv arXiv cs.CL · 1 д назад

Разделение задачи для эффективной аннотации

Мы предлагаем разделять структурированные задачи аннотации на подзадачи, чтобы снизить общую инференциальную нагрузку. Определяя значимые центральные сущности — центры в пространстве допустимых аннотаций — мы ограничиваем сложность вывода и повышаем эффективность затрат. Мы предоставляем руководства по разделению задач и процедуру распределения подзадач между людьми и модельными аннотаторами для достижения оптимального качества при фиксированных бюджетах.

arxiv arXiv cs.CL · 1 д назад

CANDLE: Легкая дедупликация шумов на арабском языке с использованием CTC

CANDLE — это легкая система, которая использует Connectionist Temporal Classification для устранения дублирования повторяющихся символов в арабском тексте, не используя ручно разработанные правила или морфологические анализаторы. Система достигает ошибки в предложении 5,37% и снижает плотность токенизатора на 12,8%, что уменьшает затраты на инференс и улучшает использование контекстного окна.

arxiv arXiv cs.CL · 1 д назад

Готовы ли мы к агентно-ориентированной системе памяти?

Новое исследование разбивает память агента на четыре основных модуля и оценивает 12 систем по пяти бенчмаркам. Оно показывает, что ни одна архитектура не доминирует, производительность зависит от соответствия с узкими местами в задачах, и выявляет, что локальная поддержка более экономична, чем глобальная перестройка.

arxiv arXiv cs.CL · 1 д назад

L3Cube-MahaPOS: датасет маратхи и модели BERT

L3Cube-MahaPOS вводит датасет стандарта для тегирования частей речи на маратхи, вручную аннотированный 32 354 предложением из новостного текста. Включает схему 16 тегов универсальных зависимостей и проводит оценку шести семейств моделей, достигая точности на уровне токенов 88,67% и макро-F1 81,67% на 15 классах тегов с использованием MahaBERT-v2.

arxiv arXiv cs.CL · 1 д назад

Выбор обучающих данных с учетом качества для научного синтеза

Мы создали и опубликовали большой биомедицинский набор данных, содержащий 1,88 миллиона статей PMC. Анализ показывает, что авторские аннотации варьируются по качеству и соответствию исходным статьям, что позволяет эффективно выбирать обучающие данные. Обучение на высококачественных подмножествах превосходит случайный выбор и сопоставимо с более крупными случайными подмножествами по метрикам фактичности.