Evaluation & benchmarks — korshunov.ai

Evaluation & benchmarks Страница 1 / 42

CORE-BREW: мягкий декодинг на основе лог-вероятностных отношений для устойчивой многоразрядной вставки водяных знаков в LLM

CORE-BREW вводит метод мягкой декодировки, использующий калиброванные лог-вероятностные отношения, для обеспечения устойчивой многоразрядной вставки водяных знаков в LLM. Он достигает стабильных показателей выявления и улучшенного контроля ложноположительных результатов за счет строгих и калиброванных по FPR режимов обнаружения, превосходя предыдущие базовые решения при редактировании на уровне токенов и переформулировании, при этом сохраняя семантическое качество.

arxiv arXiv cs.CL · 1 д назад

Фонд Панини для обработки индийских языков

Новая система оценок предлагает использовать древнюю грамматику Панини как единый фреймворк для обработки индийских языков. Этот подход направлен на повышение точности, эффективности использования данных и переносимости за счёт внедрения средств обработки естественного языка в общую морфосинтаксическую архитектуру. Фреймворк ставит вопросы о том, представляют ли нейронные модели внутренне категории паниниевской лингвистики.

arxiv arXiv cs.CL · 1 д назад

Digi Turbine: синтетический бенчмарк с учетом надежности для мониторинга морских ветровых турбин

Digi Turbine — это синтетический бенчмарк, который в своей цели обучения объединяет упрощенную модель балки с основанием грунта по модели Винклера. Он использует байесовский обратный идентификационный метод и метод первого порядка надежности для обеспечения надежной оценки состояния на основе редких данных с датчиков. Проверка основана на синтетических конфигурациях, полученных из ветровой турбины NREL 5MW.

arxiv arXiv cs.CL · 1 д назад

Эволюция аспектной эмоциональной оценки в многоэтапных взаимных оценках

Исследование на основе глубокого обучения анализирует эволюцию эмоциональной оценки в ходе оценок по 11 063 статьям журнала Nature Communications. По мере увеличения количества этапов оценки положительные эмоции растут, а отрицательные — уменьшаются, при этом оценки по отдельным аспектам показывают отрицательную корреляцию с общим числом этапов оценки, особенно в отношении аспектов 'эксперименты', 'научная значимость' и 'анализ результатов'.

arxiv arXiv cs.CL · 1 д назад

ReCARE: Устойчивое удаление для сопутствующих сохраняющихся концепций в необучении диффузии

ReCARE представляет рамку, которая сохраняет благоприятные сопутствующие концепции во время необучения, определяя CARE (Сопутствующие ассоциированные сохраняющиеся концепции) и используя показатель CARE для количественной оценки их сохранения. Он автоматически строит набор CARE на основе целевых изображений и интегрирует его в обучение, чтобы обеспечить стабильное необучение при удалении только целевой концепции.

arxiv arXiv cs.CL · 1 д назад

Диалог к открытию: эlicitация предпочтений с учетом атрибутов

Диалог к открытию (D2D) — это атрибутно-ориентированный фреймворк, который улучшает поисковые запросы в продуктах за счёт динамического направления взаимодействия пользователя. Он адаптирует приоритеты запросов и время рекомендаций, достигая на 22,2–29,9% более высокой точности нахождения целей, на 6,6–16,1% меньшего отказа и на 27,5% короче диалога по сравнению с существующими методами, при этом пользовательские исследования подтверждают улучшение удовлетворённости и эффективности.

arxiv arXiv cs.CL · 1 д назад

Декогеренция как защита в квантовых нейронных сетях для обнаружения вторжений

Строгая теория N-кубитов доказывает, что деградирующая шум в стохастических квантовых нейронных сетях экспоненциально сжимает измерения Паули, обеспечивая устойчивое обнаружение аномалий. На наборе данных NSL-KDD такой шум обеспечивает значительную устойчивость к атакам без катастрофического коллапса, превосходя модели без шума и классические детекторы при атаках FGSM и PGD, с уменьшенной вариацией устойчивости и снижением разрыва между обучением и тестированием на уровне примерно 0.01.

arxiv arXiv cs.CL · 1 д назад

CALIBER: калибровка уверенности до и после рассуждения в моделях языка

CALIBER представляет метод, который выявляет и контролирует оценки уверенности на двух стадиях: до и после рассуждения. Он снижает ожидаемую ошибку калибровки на 52,5% на BigMathDigits для модели размером 7B, достигая наилучшего значения Brier и AUROC, и показывает лучшие результаты на внешних по распределению тестах, таких как GPQA и TriviaQA.

arxiv arXiv cs.CL · 1 д назад

SURGELLM: Задача-ориентированная гейтинговая фича с классово-сбалансированной нормализацией

SURGELLM представляет единый фреймворк на основе трансформера с хирургической гейтинговой фичей, задаче-зависимыми префикс-токенами и нормализацией с весом инстанса, чтобы решить несоответствия индуктивных предпосылок, неравномерность классов и отсутствие интеграции лексических знаний. Вариант IWN достигает значения macro-F1 в 0,940 по четырём задачам, превосходя базовые модели на 0,036 в целом и на 0,130 в задаче авторства, прирост подтверждён как лексический, а не параметрический.

arxiv arXiv cs.CL · 1 д назад

Плохие запросы приводят к коллапсу модели и ошибкам

Плохие контексты в диалогах могут привести к 'птичьему эффекту', когда модели повторяют неверные ответы или сужаются до одного ответа. Эксперименты показывают, что при увеличении числа ходов диалога производительность падает на 38-40%, а ошибки ухудшаются, даже если начальные входные данные корректны. Новый метод, RLVR с синтетическими ошибками, улучшает производительность модели на 43-60% при таких плохих контекстах.

arxiv arXiv cs.CL · 1 д назад

AVOC: Использование метода извлечения для сжатия токенов в понимании длинных аудио-видео данных

AVOC улучшает понимание длинных аудио-видео данных в универсальных многомодальных языковых моделях, вводя модуль сжатия токенов, обучаемый в процессе. Он переформулирует выбор токенов как задачу извлечения топ-K, используя критерии релевантности, важности и разнообразия для выбора компактных и информативных токенов, достигая лучших результатов на OmniVideoBench и LVOmniBench, и сохраняя сильную производительность на задачах поиска в стеке из одного часа аудио-видео данных.

arxiv arXiv cs.CL · 1 д назад

Модели трансформеров: архитектуры, применения и критический анализ

Настоящий обзор представляет систематизацию моделей на основе трансформеров по направлениям применения, охватывая модели с одним декодером, с одним кодировщиком, кодировщик-декодер, с длинным контекстом, на основе перестановок и с вариантом генератор-дискриминатор. В нем оцениваются достижения после 2023 года, такие как настройка на инструкции и масштабирование смеси экспертов, а также анализ развертывания моделей в области здравоохранения, финансов, права, образования, обслуживания клиентов, креативного письма и научной деятельности, с привязкой каждого к конкретным возможностям. В статье критически анализируется архитектура моделей по четырем ключевым направлениям развертывания, количественно оценивается количество параметров в сравнении с энергозатратами, и изучается, как методы синхронизации, происхождение данных и насыщение тестов определяют «уровень передовой техники».

arxiv arXiv cs.CL · 1 д назад

PETRA: Датасет и пайплайн для адаптации текстов в нефтегазовой инженерии

PETRA преобразует публичный веб-текст в отобранный корпус нефтегазовой инженерии с синтетической надзорной функцией для плотного поиска и переранжирования. В результате достигается рост в-доменной nDCG с 0,703 до 0,763 и повышение производительности в области геологии на 44% и на 23% в шести задачах логического мышления.

arxiv arXiv cs.CL · 1 д назад

MorfFlex: Управление богатой морфологией на чешском языке

MorfFlex — это архитектура морфологического словаря, разработанная для языков с сложной инфлексией и производством. MorfFlex CZ, его основная реализация, содержит более 100 миллионов форм слов и более 1 миллиона лемм, сокращенных с помощью закодированных инфлексионных и производственных паттернов. Оно обеспечивает единообразие аннотаций в Прагском зависимом дереве и обеспечивает работу инструментов, таких как MorphoDiTa.

arxiv arXiv cs.CL · 1 д назад

ComputeFHE: Библиотека общего назначения для вычислений с обеспечением конфиденциальности

ComputeFHE — это открытый исходный библиотека на языке C++, обеспечивающая вычисления с обеспечением конфиденциальности с использованием криптосистемы TFHE. Она предлагает зашифрованные типы данных для целых чисел и фиксированных точек с арифметическими и логическими операциями, поддерживая как стандартные, так и оптимизированные архитектуры ALU, подходящие для FHE. Экспериментальные результаты показывают улучшение производительности до 3,9 раз и снижение количества операций бутстрапа, при этом имеется режим симуляции для тестирования и анализа сложности без выполнения криптографических операций.

arxiv arXiv cs.CL · 1 д назад

Стабильность ранжирования промптов в оценке ЛЛМ

Ранжирование промптов в оценке больших языковых моделей часто нестабильно при незначительных вариациях, таких как случайные семена и ограниченные подмножества. Стратегия выбора с учетом стабильности, использующая нижние границы вероятности, повышает устойчивость за счёт учёта как производительности, так и дисперсии, при этом сохраняя конкурентоспособность в стабильных условиях.

arxiv arXiv cs.CL · 1 д назад

AutoSpecNER: Датасет для детализированного распознавания названий в технических характеристиках автомобилей

AutoSpecNER — это датасет из 659 рекламных объявлений автомобилей с более чем 10 000 аннотированных сущностей в 15 категориях. Датасет демонстрирует уровень согласованности между аннотаторами на уровне 91,5% и показывает, что DeBERTa превосходит как правило-ориентированные методы, так и большие языковые модели при извлечении технических характеристик автомобилей, достигая значения микро-F1 в 90%.

arxiv arXiv cs.CL · 1 д назад

Эра LLM: Бенчмарк для логического мышления и дипломатии в LLM

Age of LLM вводит турнирный бенчмарк 1 против 1, где два LLM соревнуются на сетке размером 13x7 под условиями тумана, полной дипломатии и строгих правил надежности в формате JSON. Результаты показывают, что ядерный рывок доминирует, дипломатия является распространённой, но редко приводит к успеху, а незаконные действия выявляют ошибки в отслеживании убеждений, при этом между надежностью и победой существует слабая связь. Корпус является малым и несбалансированным, и результаты дают предварительное представление о логическом мышлении LLM в условиях противодействующей неопределённости.

arxiv arXiv cs.CL · 1 д назад

ExtractConf: Многосигнальный двигатель уверенности для извлечения документов из LLM

ExtractConf вводит двигатель уверенности, который использует двойное чтение LLM — направленное на поля и направленное на документ — для обнаружения ненадежных извлечений. Он объединяет несогласие между вызовами, неопределенность LLM и сигналы документа в классификатор, достигая значения ROC AUC 0,928 на счетах и снижая риски селективного предсказания на 70%.

arxiv arXiv cs.CL · 1 д назад

Кадр EDV обеспечивает надежное обучение опыта для агентных систем

Кадр EDV вводит парадигму Execute-Distill-Verify для преодоления тупика самоподтверждения в агентах на основе больших языковых моделей. Используя несколько агентов для изучения задач, третий агент для извлечения опыта и этап проверки на основе консенсуса, EDV гарантирует, что только точные опыты сохраняются в памяти. Оценка на tau2-bench, Mind2Web и MMTB показывает, что EDV превосходит сильные базовые модели, что демонстрирует его эффективность в обеспечении устойчивого саморазвития агентов.