Evaluation & benchmarks — korshunov.ai

Evaluation & benchmarks Страница 1 / 42

Эволюция аспектной эмоциональной оценки в многоэтапных взаимных оценках

Исследование на основе глубокого обучения анализирует эволюцию эмоциональной оценки в ходе оценок по 11 063 статьям журнала Nature Communications. По мере увеличения количества этапов оценки положительные эмоции растут, а отрицательные — уменьшаются, при этом оценки по отдельным аспектам показывают отрицательную корреляцию с общим числом этапов оценки, особенно в отношении аспектов 'эксперименты', 'научная значимость' и 'анализ результатов'.

arxiv arXiv cs.CL · 1 д назад

ReCARE: Устойчивое удаление для сопутствующих сохраняющихся концепций в необучении диффузии

ReCARE представляет рамку, которая сохраняет благоприятные сопутствующие концепции во время необучения, определяя CARE (Сопутствующие ассоциированные сохраняющиеся концепции) и используя показатель CARE для количественной оценки их сохранения. Он автоматически строит набор CARE на основе целевых изображений и интегрирует его в обучение, чтобы обеспечить стабильное необучение при удалении только целевой концепции.

arxiv arXiv cs.CL · 1 д назад

Диалог к открытию: эlicitация предпочтений с учетом атрибутов

Диалог к открытию (D2D) — это атрибутно-ориентированный фреймворк, который улучшает поисковые запросы в продуктах за счёт динамического направления взаимодействия пользователя. Он адаптирует приоритеты запросов и время рекомендаций, достигая на 22,2–29,9% более высокой точности нахождения целей, на 6,6–16,1% меньшего отказа и на 27,5% короче диалога по сравнению с существующими методами, при этом пользовательские исследования подтверждают улучшение удовлетворённости и эффективности.

arxiv arXiv cs.CL · 1 д назад

Декогеренция как защита в квантовых нейронных сетях для обнаружения вторжений

Строгая теория N-кубитов доказывает, что деградирующая шум в стохастических квантовых нейронных сетях экспоненциально сжимает измерения Паули, обеспечивая устойчивое обнаружение аномалий. На наборе данных NSL-KDD такой шум обеспечивает значительную устойчивость к атакам без катастрофического коллапса, превосходя модели без шума и классические детекторы при атаках FGSM и PGD, с уменьшенной вариацией устойчивости и снижением разрыва между обучением и тестированием на уровне примерно 0.01.

arxiv arXiv cs.CL · 1 д назад

CALIBER: калибровка уверенности до и после рассуждения в моделях языка

CALIBER представляет метод, который выявляет и контролирует оценки уверенности на двух стадиях: до и после рассуждения. Он снижает ожидаемую ошибку калибровки на 52,5% на BigMathDigits для модели размером 7B, достигая наилучшего значения Brier и AUROC, и показывает лучшие результаты на внешних по распределению тестах, таких как GPQA и TriviaQA.

arxiv arXiv cs.CL · 1 д назад

SURGELLM: Задача-ориентированная гейтинговая фича с классово-сбалансированной нормализацией

SURGELLM представляет единый фреймворк на основе трансформера с хирургической гейтинговой фичей, задаче-зависимыми префикс-токенами и нормализацией с весом инстанса, чтобы решить несоответствия индуктивных предпосылок, неравномерность классов и отсутствие интеграции лексических знаний. Вариант IWN достигает значения macro-F1 в 0,940 по четырём задачам, превосходя базовые модели на 0,036 в целом и на 0,130 в задаче авторства, прирост подтверждён как лексический, а не параметрический.

arxiv arXiv cs.CL · 1 д назад

Плохие запросы приводят к коллапсу модели и ошибкам

Плохие контексты в диалогах могут привести к 'птичьему эффекту', когда модели повторяют неверные ответы или сужаются до одного ответа. Эксперименты показывают, что при увеличении числа ходов диалога производительность падает на 38-40%, а ошибки ухудшаются, даже если начальные входные данные корректны. Новый метод, RLVR с синтетическими ошибками, улучшает производительность модели на 43-60% при таких плохих контекстах.

arxiv arXiv cs.CL · 1 д назад

AVOC: Использование метода извлечения для сжатия токенов в понимании длинных аудио-видео данных

AVOC улучшает понимание длинных аудио-видео данных в универсальных многомодальных языковых моделях, вводя модуль сжатия токенов, обучаемый в процессе. Он переформулирует выбор токенов как задачу извлечения топ-K, используя критерии релевантности, важности и разнообразия для выбора компактных и информативных токенов, достигая лучших результатов на OmniVideoBench и LVOmniBench, и сохраняя сильную производительность на задачах поиска в стеке из одного часа аудио-видео данных.

arxiv arXiv cs.CL · 1 д назад

Модели трансформеров: архитектуры, применения и критический анализ

Настоящий обзор представляет систематизацию моделей на основе трансформеров по направлениям применения, охватывая модели с одним декодером, с одним кодировщиком, кодировщик-декодер, с длинным контекстом, на основе перестановок и с вариантом генератор-дискриминатор. В нем оцениваются достижения после 2023 года, такие как настройка на инструкции и масштабирование смеси экспертов, а также анализ развертывания моделей в области здравоохранения, финансов, права, образования, обслуживания клиентов, креативного письма и научной деятельности, с привязкой каждого к конкретным возможностям. В статье критически анализируется архитектура моделей по четырем ключевым направлениям развертывания, количественно оценивается количество параметров в сравнении с энергозатратами, и изучается, как методы синхронизации, происхождение данных и насыщение тестов определяют «уровень передовой техники».

arxiv arXiv cs.CL · 1 д назад

PETRA: Датасет и пайплайн для адаптации текстов в нефтегазовой инженерии

PETRA преобразует публичный веб-текст в отобранный корпус нефтегазовой инженерии с синтетической надзорной функцией для плотного поиска и переранжирования. В результате достигается рост в-доменной nDCG с 0,703 до 0,763 и повышение производительности в области геологии на 44% и на 23% в шести задачах логического мышления.

arxiv arXiv cs.CL · 1 д назад

MorfFlex: Управление богатой морфологией на чешском языке

MorfFlex — это архитектура морфологического словаря, разработанная для языков с сложной инфлексией и производством. MorfFlex CZ, его основная реализация, содержит более 100 миллионов форм слов и более 1 миллиона лемм, сокращенных с помощью закодированных инфлексионных и производственных паттернов. Оно обеспечивает единообразие аннотаций в Прагском зависимом дереве и обеспечивает работу инструментов, таких как MorphoDiTa.

arxiv arXiv cs.CL · 1 д назад

ComputeFHE: Библиотека общего назначения для вычислений с обеспечением конфиденциальности

ComputeFHE — это открытый исходный библиотека на языке C++, обеспечивающая вычисления с обеспечением конфиденциальности с использованием криптосистемы TFHE. Она предлагает зашифрованные типы данных для целых чисел и фиксированных точек с арифметическими и логическими операциями, поддерживая как стандартные, так и оптимизированные архитектуры ALU, подходящие для FHE. Экспериментальные результаты показывают улучшение производительности до 3,9 раз и снижение количества операций бутстрапа, при этом имеется режим симуляции для тестирования и анализа сложности без выполнения криптографических операций.

arxiv arXiv cs.CL · 1 д назад

Стабильность ранжирования промптов в оценке ЛЛМ

Ранжирование промптов в оценке больших языковых моделей часто нестабильно при незначительных вариациях, таких как случайные семена и ограниченные подмножества. Стратегия выбора с учетом стабильности, использующая нижние границы вероятности, повышает устойчивость за счёт учёта как производительности, так и дисперсии, при этом сохраняя конкурентоспособность в стабильных условиях.

arxiv arXiv cs.CL · 1 д назад

AutoSpecNER: Датасет для детализированного распознавания названий в технических характеристиках автомобилей

AutoSpecNER — это датасет из 659 рекламных объявлений автомобилей с более чем 10 000 аннотированных сущностей в 15 категориях. Датасет демонстрирует уровень согласованности между аннотаторами на уровне 91,5% и показывает, что DeBERTa превосходит как правило-ориентированные методы, так и большие языковые модели при извлечении технических характеристик автомобилей, достигая значения микро-F1 в 90%.

arxiv arXiv cs.CL · 1 д назад

Эра LLM: Бенчмарк для логического мышления и дипломатии в LLM

Age of LLM вводит турнирный бенчмарк 1 против 1, где два LLM соревнуются на сетке размером 13x7 под условиями тумана, полной дипломатии и строгих правил надежности в формате JSON. Результаты показывают, что ядерный рывок доминирует, дипломатия является распространённой, но редко приводит к успеху, а незаконные действия выявляют ошибки в отслеживании убеждений, при этом между надежностью и победой существует слабая связь. Корпус является малым и несбалансированным, и результаты дают предварительное представление о логическом мышлении LLM в условиях противодействующей неопределённости.

arxiv arXiv cs.CL · 1 д назад

ExtractConf: Многосигнальный двигатель уверенности для извлечения документов из LLM

ExtractConf вводит двигатель уверенности, который использует двойное чтение LLM — направленное на поля и направленное на документ — для обнаружения ненадежных извлечений. Он объединяет несогласие между вызовами, неопределенность LLM и сигналы документа в классификатор, достигая значения ROC AUC 0,928 на счетах и снижая риски селективного предсказания на 70%.

arxiv arXiv cs.CL · 1 д назад

Кадр EDV обеспечивает надежное обучение опыта для агентных систем

Кадр EDV вводит парадигму Execute-Distill-Verify для преодоления тупика самоподтверждения в агентах на основе больших языковых моделей. Используя несколько агентов для изучения задач, третий агент для извлечения опыта и этап проверки на основе консенсуса, EDV гарантирует, что только точные опыты сохраняются в памяти. Оценка на tau2-bench, Mind2Web и MMTB показывает, что EDV превосходит сильные базовые модели, что демонстрирует его эффективность в обеспечении устойчивого саморазвития агентов.

arxiv arXiv cs.CL · 1 д назад

LLM-основанная двухэтапная трансформаторная модель для диагностики неисправностей подшипников

Легкая модель трансформатора GPT-2 позволяет выполнять иерархическую обработку признаков из сигналов вибрации. Фреймворк достигает средней точности 92,61% при использовании только 10% меток, превосходя современные методы на 17,24 процентных пункта в задаче диагностики неисправностей подшипников в условиях перехода между доменами.

arxiv arXiv cs.CL · 1 д назад

Штраф на токенизацию африканских языков в передовых моделях языков

Языки Африки испытывают штраф на токенизацию в 1,88 раза до 8,92 раза по сравнению с английским в передовых моделях языков, при этом скрипты Эфиопийского и Н'Ко несут наибольшие расходы. Этот штраф приводит к увеличению затрат на инференс до 8,9 раз и сокращению объёма контекста, при этом некоторые языки получают всего 11% от объёма контекста английского языка. Штраф сохраняется при различных корпусах и не устраняется современными токенизаторами, что подчёркивает структурное цифровое неравенство.

arxiv arXiv cs.CL · 1 д назад

UOL@IDEM представляет модель предсказания словарного уровня с учётом L1

UOL@IDEM представляет закрытую подачу на BEA 2026, моделирующую предсказание сложности словарных единиц как регрессию для испанского, немецкого и китайского языков. Система интегрирует многолингвистические контекстные векторы с искусственными признаками, такими как частота и сходство когнатов, достигая более низких значений RMSE по сравнению с базовыми моделями, при анализе признаков выделяется частота как наиболее стабильный предиктор, а контекстуальная предсказуемость как ключевой сигнал, чувствительный к уровню первого языка.