Evaluation & benchmarks — korshunov.ai

Evaluation & benchmarks Страница 1 / 42

L3Cube-MahaPOS: датасет маратхи и модели BERT

L3Cube-MahaPOS вводит датасет стандарта для тегирования частей речи на маратхи, вручную аннотированный 32 354 предложением из новостного текста. Включает схему 16 тегов универсальных зависимостей и проводит оценку шести семейств моделей, достигая точности на уровне токенов 88,67% и макро-F1 81,67% на 15 классах тегов с использованием MahaBERT-v2.

arxiv arXiv cs.CL · 1 д назад

Выбор обучающих данных с учетом качества для научного синтеза

Мы создали и опубликовали большой биомедицинский набор данных, содержащий 1,88 миллиона статей PMC. Анализ показывает, что авторские аннотации варьируются по качеству и соответствию исходным статьям, что позволяет эффективно выбирать обучающие данные. Обучение на высококачественных подмножествах превосходит случайный выбор и сопоставимо с более крупными случайными подмножествами по метрикам фактичности.

arxiv arXiv cs.CL · 1 д назад

Лингвистические отпечатки раскрывают региональные происхождения таньских поэтов

Компьютерный анализ полного собрания таньских поэзий показывает, что географические происхождения поэтов оставляют заметные лингвистические следы. Модели, использующие характеристики n-грамм символов TF-IDF и доменных признаков, достигают точности 0,69 при предсказании широких региональных происхождений (юг против севера), превышающей случайность, и корректно классифицируют более тонкие региональные происхождения. Исследование показывает, что лингвистическая дистанция между регионами коррелирует с географической дистанцией, с увеличением регионального расхождения в поздний период Тан, и подчеркивает исторические предвзятости в стиле поэзии раннего Тан.

arxiv arXiv cs.CL · 1 д назад

Первый масштабный анализ сетей совместного появления алгоритмов

Это исследование анализирует влияние алгоритмов через сети совместного появления в области обработки естественного языка, используя полный текст научных статей. Оно показывает, что сети алгоритмов демонстрируют сложные сетевые характеристики, с более плотными связями, возникающими в течение двух десятилетий, и что классические алгоритмы на пересечениях исследований показывают высокую центральность и сбалансированное влияние. Исследование предоставляет временной и структурный взгляд на эволюцию алгоритмов и создает основу для будущих исследований по сетям алгоритмов, ученых и задач.

arxiv arXiv cs.CL · 1 д назад

PORTER: Языково-обоснованные представления событий для портативных фундаментальных моделей электронных медицинских записей

PORTER представляет структурированную фундаментальную модель электронных медицинских записей, основанную на языке, которая описывает клинические события через описания, а не через фиксированные словари. Оно достигает превосходных результатов на 74 задачах прогнозирования для детей и эффективно переносится на новые словари без переобучения, восстанавливая 97,1% целевых AUROC и превосходя модели на основе фиксированных словарей на MIMIC, при вычислительной нагрузке в 329 раз ниже, чем у подходов на основе сериализации текста.

arxiv arXiv cs.CL · 1 д назад

Ошибки калибровки LoRA Monitor при использовании Top-1 в диффузионных языковых моделях

Сбои в концентрации аргмакса Top-1 выступают в качестве предупреждения о коллапсе в диффузионных языковых моделях, оптимизированных с помощью LoRA, и показывают нулевую точность при 816 конфигурациях. Максимальная норма градиента LoRA превосходит этот базовый вариант, достигая точности 0,68 и F1 0,79 на отложенной выборке LLaDA, хотя результаты ограничены короткими горизонтами и специфическими семействами.

arxiv arXiv cs.CL · 1 д назад

Целостный планировщик данных для предобучения языковых моделей с использованием многокритериального обучения с помощью реверсного обучения

HDS представляет многокритериальную систему обучения с помощью реверсного обучения для онлайн-смешивания данных в предобучении языковых моделей. Он достигает на 44% меньше итераций обучения на бенчмарке The Pile и улучшает производительность MMLU в режиме 0-шотов на 7,2%, с устойчивыми результатами на других бенчмарках.

arxiv arXiv cs.CL · 1 д назад

InterAligner: прогрессивная синхронизация для аудио-распознавания

InterAligner вводит промежуточную цель синхронизации и потерю InterCTC для обеспечения прогрессивной синхронизации в глубоких моделях аудио-распознавания. На LibriSpeech с конформером из 17 слоев, оно снижает WER с 5,0/7,8 до 3,1/5,6, обеспечивая значительное улучшение на длинных фразах.

arxiv arXiv cs.CL · 1 д назад

Metis: Связывание памяти текста и кода для самоэволюционных агентов

Metis вводит иерархическую двойную память, сочетающую память текста и память кода, чтобы улучшить самоэволюционные агенты. Она организует опыт в виде планов выполнения, фактов и ошибок, и кристаллизует повторно используемые планы в проверенные инструменты только при обосновании. На AppWorld Metis достигает на 20,6% большей точности выполнения задач и на 22,8% меньших затрат на выполнение по сравнению с ReAct, при лучшем общем балансе по точности, эффективности и затратам памяти.

arxiv arXiv cs.CL · 1 д назад

MedBench v5: Динамический бенчмарк для клинической ИИ

MedBench v5 представляет динамический, процесс-ориентированный бенчмарк для клинических модальных моделей, включающий клиническую когнитивную реактивность и атомарные навыки по 63 задачам. В нем предусмотрены стресс-факторы для анализа деградации и мониторинга распространения галлюцинаций через пять узлов рассуждения, что показывает, что высокая производительность по задачам не гарантирует стабильность процесса.

arxiv arXiv cs.CL · 1 д назад

BehaviorBench запускает бенчмарк для поведенческих ИИ-моделей

BehaviorBench представляет всесторонний бенчмарк для оценки фундаментальных моделей по четырем способностям поведенческой науки: прогнозированию поведения, стратегическому принятию решений, инференции характеристик субъекта и применению знаний. Он оценивает модели на индивидуальном и распределенном уровнях, показывая, что поведенческие фундаментальные модели, такие как Be.FM-1.5, достигают более сильной распределенной синхронизации, чем общецелевые модели, что подчеркивает необходимость оценки на распределенном уровне в поведенческой ИИ.

arxiv arXiv cs.CL · 1 д назад

CORE-BREW: мягкий декодинг на основе лог-вероятностных отношений для устойчивой многоразрядной вставки водяных знаков в LLM

CORE-BREW вводит метод мягкой декодировки, использующий калиброванные лог-вероятностные отношения, для обеспечения устойчивой многоразрядной вставки водяных знаков в LLM. Он достигает стабильных показателей выявления и улучшенного контроля ложноположительных результатов за счет строгих и калиброванных по FPR режимов обнаружения, превосходя предыдущие базовые решения при редактировании на уровне токенов и переформулировании, при этом сохраняя семантическое качество.

arxiv arXiv cs.CL · 1 д назад

Фонд Панини для обработки индийских языков

Новая система оценок предлагает использовать древнюю грамматику Панини как единый фреймворк для обработки индийских языков. Этот подход направлен на повышение точности, эффективности использования данных и переносимости за счёт внедрения средств обработки естественного языка в общую морфосинтаксическую архитектуру. Фреймворк ставит вопросы о том, представляют ли нейронные модели внутренне категории паниниевской лингвистики.

arxiv arXiv cs.CL · 1 д назад

Digi Turbine: синтетический бенчмарк с учетом надежности для мониторинга морских ветровых турбин

Digi Turbine — это синтетический бенчмарк, который в своей цели обучения объединяет упрощенную модель балки с основанием грунта по модели Винклера. Он использует байесовский обратный идентификационный метод и метод первого порядка надежности для обеспечения надежной оценки состояния на основе редких данных с датчиков. Проверка основана на синтетических конфигурациях, полученных из ветровой турбины NREL 5MW.

arxiv arXiv cs.CL · 1 д назад

Эволюция аспектной эмоциональной оценки в многоэтапных взаимных оценках

Исследование на основе глубокого обучения анализирует эволюцию эмоциональной оценки в ходе оценок по 11 063 статьям журнала Nature Communications. По мере увеличения количества этапов оценки положительные эмоции растут, а отрицательные — уменьшаются, при этом оценки по отдельным аспектам показывают отрицательную корреляцию с общим числом этапов оценки, особенно в отношении аспектов 'эксперименты', 'научная значимость' и 'анализ результатов'.

arxiv arXiv cs.CL · 1 д назад

ReCARE: Устойчивое удаление для сопутствующих сохраняющихся концепций в необучении диффузии

ReCARE представляет рамку, которая сохраняет благоприятные сопутствующие концепции во время необучения, определяя CARE (Сопутствующие ассоциированные сохраняющиеся концепции) и используя показатель CARE для количественной оценки их сохранения. Он автоматически строит набор CARE на основе целевых изображений и интегрирует его в обучение, чтобы обеспечить стабильное необучение при удалении только целевой концепции.

arxiv arXiv cs.CL · 1 д назад

Диалог к открытию: эlicitация предпочтений с учетом атрибутов

Диалог к открытию (D2D) — это атрибутно-ориентированный фреймворк, который улучшает поисковые запросы в продуктах за счёт динамического направления взаимодействия пользователя. Он адаптирует приоритеты запросов и время рекомендаций, достигая на 22,2–29,9% более высокой точности нахождения целей, на 6,6–16,1% меньшего отказа и на 27,5% короче диалога по сравнению с существующими методами, при этом пользовательские исследования подтверждают улучшение удовлетворённости и эффективности.

arxiv arXiv cs.CL · 1 д назад

Декогеренция как защита в квантовых нейронных сетях для обнаружения вторжений

Строгая теория N-кубитов доказывает, что деградирующая шум в стохастических квантовых нейронных сетях экспоненциально сжимает измерения Паули, обеспечивая устойчивое обнаружение аномалий. На наборе данных NSL-KDD такой шум обеспечивает значительную устойчивость к атакам без катастрофического коллапса, превосходя модели без шума и классические детекторы при атаках FGSM и PGD, с уменьшенной вариацией устойчивости и снижением разрыва между обучением и тестированием на уровне примерно 0.01.

arxiv arXiv cs.CL · 1 д назад

CALIBER: калибровка уверенности до и после рассуждения в моделях языка

CALIBER представляет метод, который выявляет и контролирует оценки уверенности на двух стадиях: до и после рассуждения. Он снижает ожидаемую ошибку калибровки на 52,5% на BigMathDigits для модели размером 7B, достигая наилучшего значения Brier и AUROC, и показывает лучшие результаты на внешних по распределению тестах, таких как GPQA и TriviaQA.

arxiv arXiv cs.CL · 1 д назад

SURGELLM: Задача-ориентированная гейтинговая фича с классово-сбалансированной нормализацией

SURGELLM представляет единый фреймворк на основе трансформера с хирургической гейтинговой фичей, задаче-зависимыми префикс-токенами и нормализацией с весом инстанса, чтобы решить несоответствия индуктивных предпосылок, неравномерность классов и отсутствие интеграции лексических знаний. Вариант IWN достигает значения macro-F1 в 0,940 по четырём задачам, превосходя базовые модели на 0,036 в целом и на 0,130 в задаче авторства, прирост подтверждён как лексический, а не параметрический.