Evaluation & benchmarks — korshunov.ai

Evaluation & benchmarks Страница 1 / 43

ReproRepo: масштабирование аудитов воспроизводимости с помощью Issue GitHub

ReproRepo представляет масштабируемую архитектуру, использующую Issues GitHub для оценки воспроизводимости научных статей в области машинного обучения. Оно показывает, что агенты на основе языковых моделей, такие как Codex с GPT-5.5, выявляют хотя бы один барьер в 90% пар статей и репозиториев без выполнения кода, хотя точная локализация остаётся сложной задачей.

arxiv arXiv cs.AI · 8 д назад

Визуальная проверка обеспечивает управление на этапе инференса и автономное улучшение политики

VERITAS представляет генератор-проверяющий фреймворк, который позволяет роботам улучшать политики в реальном времени без дополнительной тренировки. Визуальный проверяющий оценивает действия на этапе инференса, что позволяет достигать стабильных улучшений за счёт проверенных роллов, которые служат эффективным надзором для улучшения политики в оффлайне. После тренировки с использованием таких проверенных роллов достигается эффективность, сравнимая с показателями экспертов, без вмешательства человека.

ReproRepo: масштабирование аудитов воспроизводимости с помощью Issue GitHub

Визуальная проверка обеспечивает управление на этапе инференса и автономное улучшение политики

Подача системы одновременного перевода речи MLLP-VRAIN на IWSLT 2026

Производительность Word2Vec в минимальной лексике Toki Pona

SpeechDx: Многоцелевой бенчмарк для клинической речевой ИИ

Истории, сгенерированные LLM, показывают низкую разнообразие

Явное против скрытого подсказки в LVLMs для отсылки к коммуникации

Визуальные данные лгут, согласованность говорит: разъединение пространственной внимательности от надежности в визуально-языковых моделях

NarrativeWorldBench и N-VSSM для длительных аудиодраматических сценариев

Смещение рекомендаций LLM и динамика конкуренции брендов

PARSE: Защита реальных документов для агентов на основе ЛЛМ

AIPatient Arena: оценка LLM в клинических рабочих процессах на основе данных ЭРВ

STATEWITNESS: Объяснитель активации для аудита лжи в LLMs

Второй порядок смещения в LLM: оценка смещения на основе суждений

Падение и восстановление точности маршрутизации в системах агентов предприятий

Анализ выразительности иерархических моделей в глубоких трансформерах

Декодирование NAR-MBR для быстрой и точной распознавания речи

Функции LLM могут навредить GNN через интерференцию при конкатенации

Сжатые модели языковых моделей не справляются с открытым генерированием, несмотря на успешное прохождение тестов на выбор одного из вариантов

OPD-Evolver: Он-политическая дистилляция для всестороннего эволюционирования агентов