Evaluation & benchmarks — korshunov.ai

Evaluation & benchmarks Страница 1 / 42

Второй порядок смещения в LLM: оценка смещения на основе суждений

Новое исследование выявляет второе порядок смещения в больших языковых моделях — социальное смещение в их оценках содержания смещенного. Используя эпистемологию привилегии, исследование разрабатывает задачу логического мышления для оценки того, принимают ли LLM смещённые тексты на основе демографических характеристик, выявляя скрытые смещения, которые варьируются в зависимости от целевой группы и ускользают от механизмов безопасности. Работа вводит два метрики для количественного измерения этих смещений и призывает к более теоретически обоснованным методам оценки в области NLP.

Второй порядок смещения в LLM: оценка смещения на основе суждений

Падение и восстановление точности маршрутизации в системах агентов предприятий

Анализ выразительности иерархических моделей в глубоких трансформерах

Декодирование NAR-MBR для быстрой и точной распознавания речи

Функции LLM могут навредить GNN через интерференцию при конкатенации

Сжатые модели языковых моделей не справляются с открытым генерированием, несмотря на успешное прохождение тестов на выбор одного из вариантов

OPD-Evolver: Он-политическая дистилляция для всестороннего эволюционирования агентов

Пerturbation запроса для надежной оценки больших языковых моделей

SkillMigrator обеспечивает передачу навыков веб-сайтов через совпадение разметки

MambaCount: Эффективный текст-ориентированный подсчет объектов

SuCo: адаптивное обоснованное рассуждение, основанное на достаточности

LLMs определяют культурный контекст, но не применяют его

EComAgentBench: Оценка агентов покупок с скрытой целью

Несоответствие кодовых стандартов агентной разработке программного обеспечения

DIFE проверяет проникновение бэкдора в CLIP на разных интерфейсах развертывания

Концептуальная рамка оценки агентных навыков на масштабе

Двухязычная настройка улучшает автоматическое распознавание речи в языках с низким количеством ресурсов с использованием идентификации языка

MultiClin Benchmark для мультискриптовой ASR в клинических условиях

Самообучаемые модели речи не учитывают компенсацию тонального контекста

Автоматизированная оптимизация промптов для агентов на основе ЛЛМ