Evaluation & benchmarks — korshunov.ai

Evaluation & benchmarks Страница 1 / 42

Metis: Связывание памяти текста и кода для самоэволюционных агентов

Metis вводит иерархическую двойную память, сочетающую память текста и память кода, чтобы улучшить самоэволюционные агенты. Она организует опыт в виде планов выполнения, фактов и ошибок, и кристаллизует повторно используемые планы в проверенные инструменты только при обосновании. На AppWorld Metis достигает на 20,6% большей точности выполнения задач и на 22,8% меньших затрат на выполнение по сравнению с ReAct, при лучшем общем балансе по точности, эффективности и затратам памяти.

Metis: Связывание памяти текста и кода для самоэволюционных агентов

MedBench v5: Динамический бенчмарк для клинической ИИ

BehaviorBench запускает бенчмарк для поведенческих ИИ-моделей

CORE-BREW: мягкий декодинг на основе лог-вероятностных отношений для устойчивой многоразрядной вставки водяных знаков в LLM

Фонд Панини для обработки индийских языков

Digi Turbine: синтетический бенчмарк с учетом надежности для мониторинга морских ветровых турбин

Эволюция аспектной эмоциональной оценки в многоэтапных взаимных оценках

ReCARE: Устойчивое удаление для сопутствующих сохраняющихся концепций в необучении диффузии

Диалог к открытию: эlicitация предпочтений с учетом атрибутов

Декогеренция как защита в квантовых нейронных сетях для обнаружения вторжений

CALIBER: калибровка уверенности до и после рассуждения в моделях языка

SURGELLM: Задача-ориентированная гейтинговая фича с классово-сбалансированной нормализацией

Плохие запросы приводят к коллапсу модели и ошибкам

AVOC: Использование метода извлечения для сжатия токенов в понимании длинных аудио-видео данных

Модели трансформеров: архитектуры, применения и критический анализ

PETRA: Датасет и пайплайн для адаптации текстов в нефтегазовой инженерии

MorfFlex: Управление богатой морфологией на чешском языке

ComputeFHE: Библиотека общего назначения для вычислений с обеспечением конфиденциальности

Стабильность ранжирования промптов в оценке ЛЛМ

AutoSpecNER: Датасет для детализированного распознавания названий в технических характеристиках автомобилей