Evaluation & benchmarks — korshunov.ai

Тема · Evaluation & benchmarks

ActiveSAM — это рамка без обучения, нулевого шаблона, которая улучшает SAM 3 для открытие-словарного семантического сегментирования за счет определения активного класса, зависящего от изображения. Оно улучшает компромисс между скоростью и точностью, превосходя SegEarth-OV3 на +1,4 mIoU в среднем и работает на 5,5 раз быстрее на больших словарях, при этом обладая сильной устойчивостью к искажениям изображений.

ActiveSAM: Быстрый и точный открытие-словарный сегментация

ExpRL: Исследовательская RL для среднего обучения LLM

HABC улучшает RL-настройку VLAs с разреженными результатами

HalBench проверяет 29 открытых моделей на сикофантизм и халлюцинации

CEAP снижает дисперсию в открытии циркуитов в LLM

Адаптивный функциональный градиентный спуск с гарантиями сходимости

Единая кausalная классификация источников смещений распределений в RL

CircuitLasso: масштабируемое обучение схем для интерпретируемости LLM

Каузальный подход к аудиту раскрытий синтетических данных

Метод резидуального обучения с использованием направляющего контроля ошибки для балансировки пяти шаров на реальных роботах

После-последовательные операторы ложной фальсификации не улучшают точность в малых моделях кода

TuneJury: Открытый метрический инструмент для выравнивания предпочтений в генерации музыки

TokenPilot: Эффективное управление контекстом для агентов LLM

KVEraser: Эффективное локальное удаление контекста в LLMs

Атака RING: использование дифференциальной конфиденциальности в распределённом обучении для скрытия сигналов бэкдора

Фаза в нейронных представлениях: внутренний тест Оппенгейма-Лима

Точная оценка постериорного скоора для линейных обратных задач

vLLM выпустил новый парсер потока для Qwen3+ в ночной версии

Непараметрический двухвыборочный тест с использованием PReLU-IPM

Гибридная конволюционная VAE для криптовалютных поверхностей волатильности