Evaluation & benchmarks — korshunov.ai

Evaluation & benchmarks Страница 1 / 43

TeaNet улучшает обучение с небольшим количеством примеров в вибрационной спектроскопии

TeaNet, усиленный с точки зрения задачи, восстанавливает спектры, случайно скрытые, для генерации усредненных образцов, сохраняющих исходные спектральные особенности при введении специфических для области вариаций. Этот подход позволяет глубоким нейронным сетям более эффективно выявлять дискриминантные волновые числа, превосходя CNN на 17% в сложных синтетических сценариях и обеспечивая улучшенную интерпретируемость в задачах обучения с небольшим количеством примеров.

arxiv arXiv cs.LG · 1 д назад

TASER: расширение навыков на основе задач для непрерывного обучения в гетерогенных задачах

TASER представляет рамку, которая динамически расширяет и направляет атомарные навыки для непрерывного обучения в гетерогенных задачах. Он снижает катастрофическое забвение и повышает пластичность за счёт обеспечения семантической различимости и эффективного распределения ресурсов через механизмы обнаружения и направления навыков. Оценка на HeteroCLBench, бенчмарке с 19 разными задачами по 9 когнитивным измерениям, показывает, что TASER превосходит существующие базовые решения.

media r/LocalLLaMA · 1 д назад

Qwen3.6 27B в vLLM дumber, чем в llama.cpp

Пользователь сообщает, что Qwen3.6-27B работает значительно менее интеллектуально в vLLM, чем в llama.cpp, демонстрируя проблемы, такие как игнорирование сообщений, халлюцинации инструментальных вызовов и неспособность распознавать контекст предыдущих диалогов. Несмотря на правильную настройку и шаблоны промптов, модель кажется потерять связность и неправильно интерпретировать собственные инструментальные вызовы, при этом ошибки возникают систематически, а не случайно.

arxiv arXiv cs.LG · 1 д назад

MedTS-TTT: обучение в процессе тестирования для медицинских временных рядов

MedTS-TTT представляет рамку обучения в процессе тестирования для классификации медицинских временных рядов. Основан на CLSA-TTT и гатерной конволюционной архитектуре, она обеспечивает быстрое, одношаговое адаптация без итеративной оптимизации. На четырех публичных наборах данных она достигает 11 из 12 лучших результатов при оценке девяти базовых моделей и трёх метрик.

media r/LocalLLaMA · 1 д назад

KaLM-Reranker-V1: Быстрый и эффективный переупорядочиватель документов

KaLM-Reranker-V1 — это быстрый, но не последовательный переупорядочиватель, который разделяет вычисление запроса и прохода, при этом сохраняя сильную модель соответствия через перекрестное внимание. Он достигает наилучших результатов на BEIR, превосходит промышленные модели, такие как Qwen3-Reranker, и показывает отличные результаты на MIRACL и LMEB, при этом нано-модель 0.27B остаётся конкурентоспособной по отношению к моделям на 7-12 миллиардов параметров.

arxiv arXiv cs.LG · 1 д назад

Обнаружение аномалий без надзора с помощью резервуарных компьютеров

Проверка на соответствие Колмогорова-Смирнова на весах выходных данных резервуарного компьютера выявляет изменения режимов в нелинейных системах. Метод различает визуально идентичные аттракторы, выявляет смещения параметров на семь раз меньше, чем у базовых моделей глубокого обучения, и определяет вентрикулярную дрожь в записях ЭКГ.

arxiv arXiv cs.LG · 1 д назад

Sea-Scan: обнаружение тёмных судов на основе машинного обучения с использованием слабого надзора

Sea-Scan использует машинное обучение для обнаружения и локализации тёмных судов на незаполненных данных. Оно достигает показателя обнаружения 97,8% при уровне ложных срабатываний 1,98%, используя слабый надзор на основе несовершенных меток AIS.

arxiv arXiv cs.LG · 1 д назад

DataClaw0: Агентная настройка мультимодальных данных из исходных потоков

DataClaw0 вводит агентную парадигму для активного уточнения исходных мультимодальных данных с целью соответствия намерениям пользователя и последующих задач. Оно использует двухэтапную схему, основанную на фактических опорах, для создания масштабного набора данных в пяти областях и объединяет обучение с помощью надзора и GRPO для достижения сильной синхронизации с сложными задачами уточнения. Оценка на генерации видео, VQA и навигации в интерфейсе, DataClaw0 обеспечивает высокую плотность информационного содержания в настраиваемых данных, что позволяет эффективно адаптировать модели при минимальном объеме обучающих данных.

arxiv arXiv cs.LG · 1 д назад

Модели Transformer чрезвычайно чувствительны к шуму в данных о траектории

Исследование показало, что модели прогнозирования траекторий на основе Transformer значительно ухудшаются при наличии шумовых данных о состоянии объектов. Точность падает в 1,3 раза при умеренном шуме и до 3,9 раз при реальных высоких уровнях шума, что подчеркивает чувствительность моделей и необходимость использования шумных, реальных данных для обучения и разработки стратегий смягчения шума.

arxiv arXiv cs.LG · 1 д назад

Кадровая система на основе открытых данных определяет топологию городской сети электроснабжения

Новая система использует данные о публичной инфраструктуре и OpenStreetMap для восстановления топологии городской сети электроснабжения от передачи до соединений на уровне зданий. Она успешно отображает сеть для 7330 зданий в районе Альна в Осло, что позволяет проводить детальный анализ электрической системы, включая оптимизацию потоков и исследования устойчивости.

arxiv arXiv cs.LG · 1 д назад

SOHET: трансформатор для гетерогенных потоков событий

SOHET вводит иерархическую архитектуру трансформатора с таблицевыми кодировщиками, специфичными для типа события, и самосупервизированной предобученной. Он превосходит существующие методы на 5,8% на задаче обнаружения мошенничества Booking.com и достигывает лучших результатов на 6 из 8 задач EBES-бенчмарка.

arxiv arXiv cs.LG · 1 д назад

Граф разностей для анатомически структурированной медицинской идентификации

Граф разностей (GoD) вводит анатомически структурированную алигнацию разностей для медицинской идентификации изображений. Он представляет изображения в виде анатомических графов, вычисляет разности на соответствующих анатомических участках и фиксирует сигналы идентификации на гомологичных структурах. GoD повышает точность Rank-1 на 7,1 пункта в фундусе и на 3,1 пункта в CXR, при этом демонстрирует лучшую обобщаемость в условиях нулевого обучения.

arxiv arXiv cs.LG · 1 д назад

VLA-FAIL: Легкая система обнаружения сбоев для моделей визуально-языковых-действий

VLA-FAIL представляет легкую систему обнаружения сбоев для моделей визуально-языковых-действий, использующую расстояние Махаланобиса на последнем слое и согласованность блоков действий, не требуя данных о сбоях или дорогостоящего выбора действий. Система объединяет эти детекторы для достижения надежного и раннего обнаружения сбоев на различных задачах, превосходя базовые методы как по точности, так и по эффективности.

arxiv arXiv cs.LG · 1 д назад

CAT-Translate: компактные модели перевода японского-английского языка

CAT-Translate представляет семейство малых открытых моделей (от 0,8B до 7B параметров), специализированных на двустороннем переводе японского-английского языка. Используя синтетические параллельные корпуса и двухэтапную методику обучения с применением Multi-Objective GRPO, модели превосходят многозначные модели на реальных тестовых наборах в областях бизнеса, права, медицины, финансов и патентов.

arxiv arXiv cs.LG · 1 д назад

ADualVUOT: Гетерогенная альгебраическая синхронизация пространства скрытых представлений для несупервизированной адаптации домена

ADualVUOT представляет двойной декодер VAE с непрерывными нормализующими потоками для улучшения гибкости скрытых представлений в медицинской томографии. Он использует расстояние Гаусс-Громова-Вассерштейна для синхронизации доменов и противодействующее усилительное усиление для повышения устойчивости, превосходя предыдущие методы на основе оптимального транспорта на медицинских изображениях.

arxiv arXiv cs.LG · 1 д назад

Фреймворк LDT-FRL для кибер-устойчивых IoMT

Фреймворк LDT-FRL вводит систему защиты с сохранением конфиденциальности для устройств IoMT, объединяя временной внимательный механизм, лёгкие цифровые двойники и федеративное обучение с подкреплением. Он достигает точности 99,66% и 99,95% на тестах CICDDoS 2019 и TON-IoT, с идеальной F1 на классе MITM, сходится на 81% быстрее, чем ранее известные методы, и обеспечивает интерпретируемость решений защиты через SHAP и Grad-CAM.

arxiv arXiv cs.LG · 1 д назад

Fast-TurboQuant: Мультипликаторная-безопасная векторная квантование

Fast-TurboQuant представляет метод проекции без умножения, используя структурированный быстрый преобразователь Джонсона-Линдструса. Он заменяет плотные случайные матрицы вращения на инверсию фазы Радемахера и быстрое преобразование Валша-Хадамарда, что снижает арифметические операции до только сложений и улучшает Recall@10 с меньшей среднеквадратичной ошибкой.

arxiv arXiv cs.LG · 1 д назад

Постобучения улучшения речи с перцептуальными вознаграждениями

Новая методика постобучения использует перцептуальные вознаграждения на основе нескольких метрик для оптимизации моделей улучшения речи. Она напрямую применяет не дифференцируемые метрики, такие как DNSMOS, WER и UTMOS, как вознаграждения через Group Sequence Policy Optimization, достигая лучших результатов на DNS2020. Оценка людьми подтверждает, что комбинация нескольких метрик превосходит подходы на основе одной метрики, снижая риски вознаграждения.

arxiv arXiv cs.LG · 1 д назад

Пipelines на основе пространства субъекта превосходят аналоги в пространстве шаблона при сегментации подкорковых структур

Пipelines на основе пространства субъекта, основанные на UNet, превосходят аналоги в пространстве шаблона при сегментации подкорковых структур, демонстрируя более высокие значения Dice и более низкие значения HD95 для ядер подталамической области, красного ядра и подстволной нервной ткани. Показатели производительности значительно падают при применении к изображениям 3T, при синтетическом обучении на данных 3T наблюдается лишь незначительное улучшение, что подчеркивает существующий разрыв между 7T и 3T МРТ.

arxiv arXiv cs.LG · 1 д назад

Глубокое обучение объединяет данные спутников с метеорологическими характеристиками для оценки влажности почвы

Исследование подтверждает метод кросс-корреляции для определения оптимальных временных и глубинных сдвигов между метеорологическими переменными и влажностью почвы. Используя данные спутников и метеорологических измерений на семи сельскохозяйственных участках в юго-западной части Испании, глубокие нейронные сети достигли значительного улучшения: CNN на уровне пикселя достиг R² = 0,877, в то время как гибридная модель CNN-LSTM достигла наивысшей общей производительности с R² = 0,930. Информация о подземной глубине и метеорологические характеристики значительно повысили точность оценки.