Evaluation & benchmarks
arxiv arXiv cs.CL · 1 д назад

Metis: Связывание памяти текста и кода для самоэволюционных агентов

Metis вводит иерархическую двойную память, сочетающую память текста и память кода, чтобы улучшить самоэволюционные агенты. Она организует опыт в виде планов выполнения, фактов и ошибок, и кристаллизует повторно используемые планы в проверенные инструменты только при обосновании. На AppWorld Metis достигает на 20,6% большей точности выполнения задач и на 22,8% меньших затрат на выполнение по сравнению с ReAct, при лучшем общем балансе по точности, эффективности и затратам памяти.

arxiv arXiv cs.CL · 1 д назад

MedBench v5: Динамический бенчмарк для клинической ИИ

MedBench v5 представляет динамический, процесс-ориентированный бенчмарк для клинических модальных моделей, включающий клиническую когнитивную реактивность и атомарные навыки по 63 задачам. В нем предусмотрены стресс-факторы для анализа деградации и мониторинга распространения галлюцинаций через пять узлов рассуждения, что показывает, что высокая производительность по задачам не гарантирует стабильность процесса.

arxiv arXiv cs.CL · 1 д назад

BehaviorBench запускает бенчмарк для поведенческих ИИ-моделей

BehaviorBench представляет всесторонний бенчмарк для оценки фундаментальных моделей по четырем способностям поведенческой науки: прогнозированию поведения, стратегическому принятию решений, инференции характеристик субъекта и применению знаний. Он оценивает модели на индивидуальном и распределенном уровнях, показывая, что поведенческие фундаментальные модели, такие как Be.FM-1.5, достигают более сильной распределенной синхронизации, чем общецелевые модели, что подчеркивает необходимость оценки на распределенном уровне в поведенческой ИИ.

arxiv arXiv cs.CL · 1 д назад

CORE-BREW: мягкий декодинг на основе лог-вероятностных отношений для устойчивой многоразрядной вставки водяных знаков в LLM

CORE-BREW вводит метод мягкой декодировки, использующий калиброванные лог-вероятностные отношения, для обеспечения устойчивой многоразрядной вставки водяных знаков в LLM. Он достигает стабильных показателей выявления и улучшенного контроля ложноположительных результатов за счет строгих и калиброванных по FPR режимов обнаружения, превосходя предыдущие базовые решения при редактировании на уровне токенов и переформулировании, при этом сохраняя семантическое качество.

arxiv arXiv cs.CL · 1 д назад

Фонд Панини для обработки индийских языков

Новая система оценок предлагает использовать древнюю грамматику Панини как единый фреймворк для обработки индийских языков. Этот подход направлен на повышение точности, эффективности использования данных и переносимости за счёт внедрения средств обработки естественного языка в общую морфосинтаксическую архитектуру. Фреймворк ставит вопросы о том, представляют ли нейронные модели внутренне категории паниниевской лингвистики.

arxiv arXiv cs.CL · 1 д назад

Digi Turbine: синтетический бенчмарк с учетом надежности для мониторинга морских ветровых турбин

Digi Turbine — это синтетический бенчмарк, который в своей цели обучения объединяет упрощенную модель балки с основанием грунта по модели Винклера. Он использует байесовский обратный идентификационный метод и метод первого порядка надежности для обеспечения надежной оценки состояния на основе редких данных с датчиков. Проверка основана на синтетических конфигурациях, полученных из ветровой турбины NREL 5MW.

arxiv arXiv cs.CL · 1 д назад

Эволюция аспектной эмоциональной оценки в многоэтапных взаимных оценках

Исследование на основе глубокого обучения анализирует эволюцию эмоциональной оценки в ходе оценок по 11 063 статьям журнала Nature Communications. По мере увеличения количества этапов оценки положительные эмоции растут, а отрицательные — уменьшаются, при этом оценки по отдельным аспектам показывают отрицательную корреляцию с общим числом этапов оценки, особенно в отношении аспектов 'эксперименты', 'научная значимость' и 'анализ результатов'.

arxiv arXiv cs.CL · 1 д назад

ReCARE: Устойчивое удаление для сопутствующих сохраняющихся концепций в необучении диффузии

ReCARE представляет рамку, которая сохраняет благоприятные сопутствующие концепции во время необучения, определяя CARE (Сопутствующие ассоциированные сохраняющиеся концепции) и используя показатель CARE для количественной оценки их сохранения. Он автоматически строит набор CARE на основе целевых изображений и интегрирует его в обучение, чтобы обеспечить стабильное необучение при удалении только целевой концепции.

arxiv arXiv cs.CL · 1 д назад

Диалог к открытию: эlicitация предпочтений с учетом атрибутов

Диалог к открытию (D2D) — это атрибутно-ориентированный фреймворк, который улучшает поисковые запросы в продуктах за счёт динамического направления взаимодействия пользователя. Он адаптирует приоритеты запросов и время рекомендаций, достигая на 22,2–29,9% более высокой точности нахождения целей, на 6,6–16,1% меньшего отказа и на 27,5% короче диалога по сравнению с существующими методами, при этом пользовательские исследования подтверждают улучшение удовлетворённости и эффективности.

arxiv arXiv cs.CL · 1 д назад

Декогеренция как защита в квантовых нейронных сетях для обнаружения вторжений

Строгая теория N-кубитов доказывает, что деградирующая шум в стохастических квантовых нейронных сетях экспоненциально сжимает измерения Паули, обеспечивая устойчивое обнаружение аномалий. На наборе данных NSL-KDD такой шум обеспечивает значительную устойчивость к атакам без катастрофического коллапса, превосходя модели без шума и классические детекторы при атаках FGSM и PGD, с уменьшенной вариацией устойчивости и снижением разрыва между обучением и тестированием на уровне примерно 0.01.

arxiv arXiv cs.CL · 1 д назад

CALIBER: калибровка уверенности до и после рассуждения в моделях языка

CALIBER представляет метод, который выявляет и контролирует оценки уверенности на двух стадиях: до и после рассуждения. Он снижает ожидаемую ошибку калибровки на 52,5% на BigMathDigits для модели размером 7B, достигая наилучшего значения Brier и AUROC, и показывает лучшие результаты на внешних по распределению тестах, таких как GPQA и TriviaQA.

arxiv arXiv cs.CL · 1 д назад

SURGELLM: Задача-ориентированная гейтинговая фича с классово-сбалансированной нормализацией

SURGELLM представляет единый фреймворк на основе трансформера с хирургической гейтинговой фичей, задаче-зависимыми префикс-токенами и нормализацией с весом инстанса, чтобы решить несоответствия индуктивных предпосылок, неравномерность классов и отсутствие интеграции лексических знаний. Вариант IWN достигает значения macro-F1 в 0,940 по четырём задачам, превосходя базовые модели на 0,036 в целом и на 0,130 в задаче авторства, прирост подтверждён как лексический, а не параметрический.

arxiv arXiv cs.CL · 1 д назад

Плохие запросы приводят к коллапсу модели и ошибкам

Плохие контексты в диалогах могут привести к 'птичьему эффекту', когда модели повторяют неверные ответы или сужаются до одного ответа. Эксперименты показывают, что при увеличении числа ходов диалога производительность падает на 38-40%, а ошибки ухудшаются, даже если начальные входные данные корректны. Новый метод, RLVR с синтетическими ошибками, улучшает производительность модели на 43-60% при таких плохих контекстах.

arxiv arXiv cs.CL · 1 д назад

AVOC: Использование метода извлечения для сжатия токенов в понимании длинных аудио-видео данных

AVOC улучшает понимание длинных аудио-видео данных в универсальных многомодальных языковых моделях, вводя модуль сжатия токенов, обучаемый в процессе. Он переформулирует выбор токенов как задачу извлечения топ-K, используя критерии релевантности, важности и разнообразия для выбора компактных и информативных токенов, достигая лучших результатов на OmniVideoBench и LVOmniBench, и сохраняя сильную производительность на задачах поиска в стеке из одного часа аудио-видео данных.

arxiv arXiv cs.CL · 1 д назад

Модели трансформеров: архитектуры, применения и критический анализ

Настоящий обзор представляет систематизацию моделей на основе трансформеров по направлениям применения, охватывая модели с одним декодером, с одним кодировщиком, кодировщик-декодер, с длинным контекстом, на основе перестановок и с вариантом генератор-дискриминатор. В нем оцениваются достижения после 2023 года, такие как настройка на инструкции и масштабирование смеси экспертов, а также анализ развертывания моделей в области здравоохранения, финансов, права, образования, обслуживания клиентов, креативного письма и научной деятельности, с привязкой каждого к конкретным возможностям. В статье критически анализируется архитектура моделей по четырем ключевым направлениям развертывания, количественно оценивается количество параметров в сравнении с энергозатратами, и изучается, как методы синхронизации, происхождение данных и насыщение тестов определяют «уровень передовой техники».

arxiv arXiv cs.CL · 1 д назад

PETRA: Датасет и пайплайн для адаптации текстов в нефтегазовой инженерии

PETRA преобразует публичный веб-текст в отобранный корпус нефтегазовой инженерии с синтетической надзорной функцией для плотного поиска и переранжирования. В результате достигается рост в-доменной nDCG с 0,703 до 0,763 и повышение производительности в области геологии на 44% и на 23% в шести задачах логического мышления.

arxiv arXiv cs.CL · 1 д назад

MorfFlex: Управление богатой морфологией на чешском языке

MorfFlex — это архитектура морфологического словаря, разработанная для языков с сложной инфлексией и производством. MorfFlex CZ, его основная реализация, содержит более 100 миллионов форм слов и более 1 миллиона лемм, сокращенных с помощью закодированных инфлексионных и производственных паттернов. Оно обеспечивает единообразие аннотаций в Прагском зависимом дереве и обеспечивает работу инструментов, таких как MorphoDiTa.

arxiv arXiv cs.CL · 1 д назад

ComputeFHE: Библиотека общего назначения для вычислений с обеспечением конфиденциальности

ComputeFHE — это открытый исходный библиотека на языке C++, обеспечивающая вычисления с обеспечением конфиденциальности с использованием криптосистемы TFHE. Она предлагает зашифрованные типы данных для целых чисел и фиксированных точек с арифметическими и логическими операциями, поддерживая как стандартные, так и оптимизированные архитектуры ALU, подходящие для FHE. Экспериментальные результаты показывают улучшение производительности до 3,9 раз и снижение количества операций бутстрапа, при этом имеется режим симуляции для тестирования и анализа сложности без выполнения криптографических операций.

arxiv arXiv cs.CL · 1 д назад

Стабильность ранжирования промптов в оценке ЛЛМ

Ранжирование промптов в оценке больших языковых моделей часто нестабильно при незначительных вариациях, таких как случайные семена и ограниченные подмножества. Стратегия выбора с учетом стабильности, использующая нижние границы вероятности, повышает устойчивость за счёт учёта как производительности, так и дисперсии, при этом сохраняя конкурентоспособность в стабильных условиях.

arxiv arXiv cs.CL · 1 д назад

AutoSpecNER: Датасет для детализированного распознавания названий в технических характеристиках автомобилей

AutoSpecNER — это датасет из 659 рекламных объявлений автомобилей с более чем 10 000 аннотированных сущностей в 15 категориях. Датасет демонстрирует уровень согласованности между аннотаторами на уровне 91,5% и показывает, что DeBERTa превосходит как правило-ориентированные методы, так и большие языковые модели при извлечении технических характеристик автомобилей, достигая значения микро-F1 в 90%.