Evaluation & benchmarks — korshunov.ai

Evaluation & benchmarks Страница 1 / 42

Qwen-AgentWorld-35B-A3B для программирования?

Модель Qwen-AgentWorld-35B-A3B демонстрирует высокую производительность в задачах программирования, с результатом 65,63% по оценке написания программного обеспечения и 65,92% по общему бенчмарку. Она превосходит Qwen3.5-35B-A3B и соперничает с более крупными моделями в задачах, связанных с агентами, при первом впечатлении отмечается превосходная точность в долгосрочных рабочих процессах агентов.

arxiv arXiv cs.AI · 18 ч назад

Концептуально-ограниченное обучение промптов для малошотного адаптирования CLIP

CCPL вводит легкую архитектуру, которая фиксирует промпты классов к замороженным концептуальным прототипам, улучшая малошотное адаптирование CLIP. Метод достигает лучшей производительности на базе и новых данных на DTD и EuroSAT по сравнению с CoOp, с устойчивыми приростами за счёт регуляризации в пространстве текста, при этом сохраняя нейтральность на OxfordPets. Метод использует выпадение концептов и управляемое объединение на этапе инференса, результаты чувствительны к семантике датасета и протоколу.

arxiv arXiv cs.AI · 18 ч назад

SmartSDG Pipeline Enhances Syn-to-Real Object Detection

Статья представляет SmartSDG — автоматизированную систему, использующую NVIDIA Isaac Sim и физически обоснованную шADING для оптимизации адаптации синтетических данных к реальным. В ней показано, что косвенное освещение и сложные фоновые условия улучшают обнаружение объектов за счёт сохранения текстур поверхностей и снижения ложноположительных результатов, превосходя традиционные синтетические данные под прямым освещением.

arxiv arXiv cs.AI · 18 ч назад

Контекстуально-осознанное дистиллирование и аблация для Text2DSL

Новая система Text2DSL использует контекстуально-осознанное дистиллирование с структурированным контекстом, состоящим из грамматики BNF, спецификации API и закрытого словаря идентификаторов. Исследования аблации показывают, что словарь оказывает наибольшее влияние на семантическое качество, в то время как API и BNF значительно улучшают структурную корректность, что подтверждает структурированный контекст как критический и несущий компонент.

arxiv arXiv cs.AI · 19 ч назад

Универсализация на уровне CWE в системах наблюдения за системными вызовами

Одноклассный детектор аномалий, обученный на нормальном поведении CVE, принадлежащих к одной CWE-категории, может обобщаться на неизвестные CVE в той же категории, однако эффективность варьируется в зависимости от семейства CWE. Детектор CWE-307 достигает F1 = 0,6976 при уровне ложного положительного ответа 5%, в то время как CWE-89 и CWE-434 показывают плохие результаты, с F1 ≤ 0,21. Переобучение между CVE является направленным и определяется более шириной нормального профиля источника, чем категорией CWE.

arxiv arXiv cs.AI · 19 ч назад

Весовое настройка на-поли-дистилляции решает смещение позиции

На-поли-дистилляция (OPD) страдает от смещения позиции, при котором поздние токены обеспечивают плохую поддержку. Весовая настройка OPD (IW-OPD) присваивает динамические веса на основе расхождения распределений, приоритизируя ранние токены и подавляя поздние. IW-OPD сходится быстрее и достигает до 6,9 точек роста производительности на AIME-2025 по сравнению с стандартной OPD.

arxiv arXiv cs.LG · 19 ч назад

Награда-безопасное предобучение для обучения с вознаграждением через максимизацию покрытия состояний

ROVER обеспечивает награду-безопасное предобучение за счет максимизации покрытия состояний в пространстве состояний, используя обученную модель мира для оценки покрытия без оценки плотности или энтропии. Оно вводит виртуальный статус-связи для балансировки исследования известных и неизвестных областей, достигая более равномерного покрытия и лучшей производительности в задачах навигации в табличных и пиксельных форматах.

arxiv arXiv cs.LG · 19 ч назад

TeaNet улучшает обучение с небольшим количеством примеров в вибрационной спектроскопии

TeaNet, усиленный с точки зрения задачи, восстанавливает спектры, случайно скрытые, для генерации усредненных образцов, сохраняющих исходные спектральные особенности при введении специфических для области вариаций. Этот подход позволяет глубоким нейронным сетям более эффективно выявлять дискриминантные волновые числа, превосходя CNN на 17% в сложных синтетических сценариях и обеспечивая улучшенную интерпретируемость в задачах обучения с небольшим количеством примеров.

arxiv arXiv cs.LG · 19 ч назад

TASER: расширение навыков на основе задач для непрерывного обучения в гетерогенных задачах

TASER представляет рамку, которая динамически расширяет и направляет атомарные навыки для непрерывного обучения в гетерогенных задачах. Он снижает катастрофическое забвение и повышает пластичность за счёт обеспечения семантической различимости и эффективного распределения ресурсов через механизмы обнаружения и направления навыков. Оценка на HeteroCLBench, бенчмарке с 19 разными задачами по 9 когнитивным измерениям, показывает, что TASER превосходит существующие базовые решения.

media r/LocalLLaMA · 20 ч назад

Qwen3.6 27B в vLLM дumber, чем в llama.cpp

Пользователь сообщает, что Qwen3.6-27B работает значительно менее интеллектуально в vLLM, чем в llama.cpp, демонстрируя проблемы, такие как игнорирование сообщений, халлюцинации инструментальных вызовов и неспособность распознавать контекст предыдущих диалогов. Несмотря на правильную настройку и шаблоны промптов, модель кажется потерять связность и неправильно интерпретировать собственные инструментальные вызовы, при этом ошибки возникают систематически, а не случайно.

arxiv arXiv cs.LG · 20 ч назад

MedTS-TTT: обучение в процессе тестирования для медицинских временных рядов

MedTS-TTT представляет рамку обучения в процессе тестирования для классификации медицинских временных рядов. Основан на CLSA-TTT и гатерной конволюционной архитектуре, она обеспечивает быстрое, одношаговое адаптация без итеративной оптимизации. На четырех публичных наборах данных она достигает 11 из 12 лучших результатов при оценке девяти базовых моделей и трёх метрик.

media r/LocalLLaMA · 20 ч назад

KaLM-Reranker-V1: Быстрый и эффективный переупорядочиватель документов

KaLM-Reranker-V1 — это быстрый, но не последовательный переупорядочиватель, который разделяет вычисление запроса и прохода, при этом сохраняя сильную модель соответствия через перекрестное внимание. Он достигает наилучших результатов на BEIR, превосходит промышленные модели, такие как Qwen3-Reranker, и показывает отличные результаты на MIRACL и LMEB, при этом нано-модель 0.27B остаётся конкурентоспособной по отношению к моделям на 7-12 миллиардов параметров.

arxiv arXiv cs.LG · 20 ч назад

Обнаружение аномалий без надзора с помощью резервуарных компьютеров

Проверка на соответствие Колмогорова-Смирнова на весах выходных данных резервуарного компьютера выявляет изменения режимов в нелинейных системах. Метод различает визуально идентичные аттракторы, выявляет смещения параметров на семь раз меньше, чем у базовых моделей глубокого обучения, и определяет вентрикулярную дрожь в записях ЭКГ.

arxiv arXiv cs.LG · 20 ч назад

Sea-Scan: обнаружение тёмных судов на основе машинного обучения с использованием слабого надзора

Sea-Scan использует машинное обучение для обнаружения и локализации тёмных судов на незаполненных данных. Оно достигает показателя обнаружения 97,8% при уровне ложных срабатываний 1,98%, используя слабый надзор на основе несовершенных меток AIS.

arxiv arXiv cs.LG · 21 ч назад

DataClaw0: Агентная настройка мультимодальных данных из исходных потоков

DataClaw0 вводит агентную парадигму для активного уточнения исходных мультимодальных данных с целью соответствия намерениям пользователя и последующих задач. Оно использует двухэтапную схему, основанную на фактических опорах, для создания масштабного набора данных в пяти областях и объединяет обучение с помощью надзора и GRPO для достижения сильной синхронизации с сложными задачами уточнения. Оценка на генерации видео, VQA и навигации в интерфейсе, DataClaw0 обеспечивает высокую плотность информационного содержания в настраиваемых данных, что позволяет эффективно адаптировать модели при минимальном объеме обучающих данных.

arxiv arXiv cs.LG · 21 ч назад

Модели Transformer чрезвычайно чувствительны к шуму в данных о траектории

Исследование показало, что модели прогнозирования траекторий на основе Transformer значительно ухудшаются при наличии шумовых данных о состоянии объектов. Точность падает в 1,3 раза при умеренном шуме и до 3,9 раз при реальных высоких уровнях шума, что подчеркивает чувствительность моделей и необходимость использования шумных, реальных данных для обучения и разработки стратегий смягчения шума.

arxiv arXiv cs.LG · 21 ч назад

Кадровая система на основе открытых данных определяет топологию городской сети электроснабжения

Новая система использует данные о публичной инфраструктуре и OpenStreetMap для восстановления топологии городской сети электроснабжения от передачи до соединений на уровне зданий. Она успешно отображает сеть для 7330 зданий в районе Альна в Осло, что позволяет проводить детальный анализ электрической системы, включая оптимизацию потоков и исследования устойчивости.

arxiv arXiv cs.LG · 21 ч назад

SOHET: трансформатор для гетерогенных потоков событий

SOHET вводит иерархическую архитектуру трансформатора с таблицевыми кодировщиками, специфичными для типа события, и самосупервизированной предобученной. Он превосходит существующие методы на 5,8% на задаче обнаружения мошенничества Booking.com и достигывает лучших результатов на 6 из 8 задач EBES-бенчмарка.

arxiv arXiv cs.LG · 21 ч назад

Граф разностей для анатомически структурированной медицинской идентификации

Граф разностей (GoD) вводит анатомически структурированную алигнацию разностей для медицинской идентификации изображений. Он представляет изображения в виде анатомических графов, вычисляет разности на соответствующих анатомических участках и фиксирует сигналы идентификации на гомологичных структурах. GoD повышает точность Rank-1 на 7,1 пункта в фундусе и на 3,1 пункта в CXR, при этом демонстрирует лучшую обобщаемость в условиях нулевого обучения.

arxiv arXiv cs.LG · 21 ч назад

VLA-FAIL: Легкая система обнаружения сбоев для моделей визуально-языковых-действий

VLA-FAIL представляет легкую систему обнаружения сбоев для моделей визуально-языковых-действий, использующую расстояние Махаланобиса на последнем слое и согласованность блоков действий, не требуя данных о сбоях или дорогостоящего выбора действий. Система объединяет эти детекторы для достижения надежного и раннего обнаружения сбоев на различных задачах, превосходя базовые методы как по точности, так и по эффективности.