Evaluation & benchmarks — korshunov.ai

Evaluation & benchmarks Страница 1 / 44

Оценка устойчивости к японским диалектам в речевых и текстовых больших языковых моделях

В данном исследовании изучается диалектная устойчивость больших языковых моделей (LLM) и речевых языковых моделей (SLM) на примере японских диалектов. Несмотря на прогресс в развитии диалоговых систем на базе LLM, диалектные вариации остаются значительной проблемой, особенно при обработке устных входных данных. В работе устойчивость определяется как отношение производительности на диалектных и стандартных входах, что позволяет проводить справедливые сравнения между различными типами моделей. Эксперименты показывают, что устойчивость SLM напрямую коррелирует с устойчивостью их базовых текстовых аналогов LLM. Кроме того, исследование выявляет, что как обучение с использованием диалектных данных, так и тонкая настройка речевого кодировщика способствуют повышению устойчивости SLM. Эти результаты проясняют влияние базовых возможностей LLM на производительность SLM и определяют эффективные стратегии улучшения понимания диалектов.

arxiv arXiv cs.CL · 12 ч назад

Оценка Reclaim показывает, что потеряющая память хуже, чем отсутствие памяти

Исследование демонстрирует, что наличие в памяти языковой модели неверных выводов более вредно, чем полное отсутствие памяти. Когда модели сохраняют устаревшие значения, отбрасывая при этом поддерживающие данные, они выдают уверенные, но ошибочные ответы, тогда как пустая память позволяет воздерживаться от ответов. Это явление, названное хрупкой памятью (brittle memory), наблюдалось в семи моделях, причем направление ошибки никогда не менялось независимо от задачи или disposition. Исследователи предложили оценку Reclaim для измерения исправляемости путем сжатия взаимодействий и проверки того, восстанавливаются ли коррекции до ground truth без использования judge. Результаты показывают, что исправляемость зависит от того, сохраняется ли исходная информация после сжатия, а не от возможностей модели. Политика source-first, которая сохраняет пересчитываемые источники и отбрасывает выводимые заключения, значительно лучше восстанавливает исправляемость по сравнению с контрольными группами, сопоставленными по длине. В циклах связанной памяти ошибки из-за потери источников необратимо искажают последующие шаги, тогда предлагаемое решение поддерживает ограниченные горизонты производительности. Выводы воспроизводятся в трех развернутых системах и реальных диалоговых данных, при этом hand-built oracle достигает идеальной точности.

arxiv arXiv cs.CL · 12 ч назад

Спектр обобщения: хроматографический подход к оценке алгоритмов обучения

Традиционные оценки сводят обучение к единому агрегированному показателю, скрывая то, насколько хорошо знания из одного примера обобщаются на другие. Авторы вводят Спектр обобщения (Generalization Spectrum) — фреймворк оценки, который измеряет обобщение для каждого образца путем отслеживания производительности по вариантам тестов с увеличивающимся расстоянием переноса. Эти варианты варьируются от точного воспроизведения до переноса реализации между языками и переноса контекста при нарративном перефрейминге. Фреймворк реализован на основе соревновательного программирования с использованием конвейера выбора и синтеза, инициированного недавними задачами для снижения риска загрязнения данных. Сравнения канонических парадигм обучения показывают, что обучение с подкреплением (Reinforcement Learning) преобразует запоминание в перенос на близкие задачи эффективнее, чем базовые методы контролируемой тонкой настройки (Supervised Fine-Tuning). Обучение в контексте (in-context learning) демонстрирует сильные, но зависящие от соответствия возможности переноса в данном контексте. Диагностические профили показывают, что локальные улучшения не обязательно расширяют радиус обобщения для всех методов. В частности, абстракции и подсказки в основном повышают локальный перенос, тогда как Контролируемая тонкая настройка с использованием эталонов (Reference SFT) сохраняет более сильный хвост распределения для дальнего переноса по сравнению с RL с подкреплением (RFT). Кроме того, самодистилляция или

arxiv arXiv cs.CL · 12 ч назад

Доработанная модель PEGASUS достигает лучших результатов на корпусе XL-Sum на английском языке

В данной статье представлен метод оптимизации абстрактного суммирования текста путем дообучения модели PEGASUS на корпусе данных XL-Sum на английском языке. Цель состоит в том, чтобы превзойти показатели базовой модели mT5 при генерации кратких резюме, которые передают ключевые идеи, а не просто извлекают предложения. Сгенерированные резюме оцениваются с помощью метрики ROUGE, которая сравнивает автоматически созданные результаты с референсами, созданными человеком. В исследовании утверждается, что дообученная модель PEGASUS достигает лучших результатов на этом конкретном наборе данных. Количественный анализ показывает улучшение показателя ROUGE-1 на 4,04% по сравнению с базовой моделью. Кроме того, модель демонстрирует значительное увеличение показателя ROUGE-2 на 15,25%. Наконец, зафиксировано улучшение показателя ROUGE-L на 3,39%, что подтверждает эффективность подхода дообучения.

arxiv arXiv cs.CL · 12 ч назад

Фреймворк для красного тестирования выявляет уязвимости верности больших языковых моделей через многоуровневую архитектуру

В данной статье представлен фреймворк для красного тестирования, предназначенный для систематического выявления уязвимостей в выводах больших языковых моделей с использованием многоуровневой архитектуры. Система применяет модели-цели, атакующие и жюри для генерации состязательных промптов и строгой оценки точности и согласованности ответов. В случае исследования оценки верности использование эксплуатационных состязательных промптов увеличило долю успешных атак до 7,9% в задачах ответа на вопросы. Исследование демонстрирует, что выбор архитектурного дизайна обычно имеет большее значение, чем масштабирование параметров, при определении безопасности модели, и показывает, как структурные ограничения формируют паттерны уязвимостей. Фреймворк демонстрирует адаптивность в различных задачах оценки, от ответов на вопросы на английском языке до суммаризации на арабском. Однако подход сталкивается с трудностями в полной автоматизации генерации состязательных промптов для разных языков. Кроме того, эксперименты выявляют ограничения в обнаружении тонких форм неверности, которые не проявляются как явные фактические противоречия.

arxiv arXiv cs.CL · 12 ч назад

Калибровка и устойчивость к состязательным атакам автоматизированной оценки ASR

В данном исследовании оценивается надежность автоматизированных судей, используемых для измерения частоты успешных атак (ASR) при джейлбрейке LLM, путем их сравнения с мнением большинства людей. Используя 596 аннотированных человеком завершений из HarmBench, авторы обнаруживают, что специализированные классификаторы безопасности дают много ложных срабатываний при высоком значении recall, но более низком precision, тогда как LLM-as-judges демонстрируют нестабильное значение recall в диапазоне от 0.06 до 0.65. Эти расхождения приводят к значительной вариативности сообщаемых показателей ASR в зависимости от того, какое семейство судей используется. Исследование также подчеркивает резкие различия в устойчивости: обертки с безвредным оформлением могут изменять решения LLM-судей от 57% до 100% случаев. Напротив, специализированные классификаторы устойчивы к таким поверхностным атакам, но остаются уязвимыми к белым ящикам GCG-атак, которые изменили 70% уверенных истинно положительных результатов, несмотря на небольшой бюджет оптимизации. Двуханнотаторский аудит подтвердил, что эти состязательные изменения сохраняют исходный вредоносный характер контента. В результате многие текущие метрики ASR признаются ненадежными как при целенаправленном давлении, так и в средних условиях. Авторы рекомендуют сообщать точность (precision) и полноту (recall) судей на данных, аннотированных человеком, а также включать состязательные проверки в будущие исследования.

arxiv arXiv cs.CL · 12 ч назад

STC улучшает обслуживание клиентов на арабском языке с помощью анализа настроений MARBERT

Saudi Telecom Company (STC) стремится повысить удовлетворенность пользователей, используя обратную связь из Twitter для анализа настроений. Исследование восполняет пробел в обработке естественного языка на арабском языке путем обучения модели MARBERT на специфическом наборе данных из 24 513 твитов. Эта коллекция включает 1 437 положительных, 13 828 отрицательных и 5 694 нейтральных твитов, а также 1 221 саркастических и 2 297 неопределенных записей. Основная цель заключается в анализе этих настроений для повышения отзывчивости службы поддержки клиентов STC. Производительность оценивалась с использованием метрик f1-score, precision и recall для обеспечения надежного обнаружения спама и настроений. Результаты показывают, что предложенная схема обеспечивает перспекточную точность по сравнению с существующими методами в литературе.

arxiv arXiv cs.CL · 12 ч назад

Поведенческие факторы несоответствия рейтингов и тональности в отзывах о туризме Шри-Ланки

Настоящее исследование изучает несоответствие между звездными рейтингами и тональностью текстовых отзывов в отзывах о туристических достопримечательностях Шри-Ланки. Проанализировав набор данных из 16 156 отзывов за период с 2010 по 2023 год, исследователи использовали конвейер на основе трансформеров для независимого определения тональности текста без учета присвоенных рейтингов. Анализ показывает, что 18,6% отзывов демонстрируют несоответствие, в первую очередь обусловленное поведением «консервативного оценщика» и «обязательной пятизвездочной оценки». Эти расхождения варьируются в зависимости от типа объекта: музеи демонстрируют самые высокие показатели расхождений. Статистические тесты, логистическая регрессия, Random Forest и SHAP-анализ выявили тип объекта, экспертность рецензента, длину отзыва и временные факторы как ключевые причины этого явления. Результаты показывают, что звездные рейтинги не являются взаимозаменяемыми с текстовой тональностью и требуют проверки перед использованием в качестве эталонных меток (ground-truth) в задачах NLP.

arxiv arXiv cs.CL · 13 ч назад

Бенчмарк SWE-Pro выявляет значительный разрыв между LLM и экспертной оптимизацией программного обеспечения

Бенчмарк SWE-Pro решает проблему отсутствия реалистичных оценочных фреймворков для оптимизации производительности программного обеспечения, предлагая набор данных на уровне репозитория, полученный из 102 оптимизаций, написанных экспертами. В отличие от предыдущих бенчмарков, которые чрезмерно упрощают задачи, SWE-Pro сопоставляет каждую задачу с параметризованными тестами для оценки времени выполнения, пикового потребления памяти и Времени-Взвешенного Использования Памяти (Time-Weighted Memory Usage) в условиях, учитывающих наличие шума. Исследование показывает, что современные большие языковые модели (LLM) испытывают значительные трудности с этими сложными требованиями, демонстрируя пренебрежимо малые улучшения времени выполнения и практически отсутствующие оптимизации потребления памяти. В резком контрасте с этим экспертные реализации обеспечили совокупное ускорение в 15.5 раза и снижение пикового потребления памяти в 171.3 раза по задачам бенчмарка. Экспертные улучшения были зафиксированы в 91.2% задач для времени выполнения и в 65.7% для пикового потребления памяти. Эти выводы обнажают существенный разрыв между текущими возможностями LLM и требованиями инженерии экспертного уровня.

arxiv arXiv cs.CL · 13 ч назад

SFL-MTSC: Использование семантической кадра-уровневой многозадачной самосогласованности для надежного понимания разговорной речи с несколькими намерениями

Понимание разговорной речи на основе промптов с использованием больших языковых моделей часто страдает от несогласованности структур намерений и слотов из-за стохастичности декодирования, особенно в сценариях с несколькими намерениями. Чтобы решить эту проблему, исследователи предлагают семантическую кадра-уровневую многозадачную самосогласованность (SFL-MTSC) — новую структурированную схему агрегации, работающую на уровне семантических кадров. Вместо опираниясь на голосование большинства на уровне вывода, SFL-MTSC разбивает предсказания на кадры, специфичные для намерений, и применяет группировку по домену и намерению вместе с кластеризацией на уровне слотов. Схема оценивает надежность кластеров с помощью подсчета поддержки пути, чтобы определить, какие кадры являются надежными. Надежные кадры сохраняются и повторно интегрируются для формирования окончательного предсказания, обеспечивая большую структурную согласованность. Эксперименты в режиме zero-shot на наборе данных MAC-SLU демонстрируют улучшение показателей F1 для слотов и общей точности по сравнению с однопутным выводом. Точность определения намерений остается в значительной степени стабильной во большинстве настроек, при этом достигаются эти улучшения на уровне слотов.

arxiv arXiv cs.CL · 14 ч назад

MedGuards: Многоагентная система для надежного обнаружения и исправления медицинских ошибок

Авторы предлагают MedGuards, фреймворк защитных механизмов безопасности в медицине, предназначенный для обнаружения и исправления ошибок в тексте, сгенерированном большими языковыми моделями. Эта система рассматривает обработку ошибок как задачу контекстного обучения с несколькими агентами, где специализированные агенты по отдельности выполняют обнаружение, локализацию и исправление. Механизм арбитража, управляемый уверенностью, разрешает разногласия между агентами с использованием цепочек рассуждений и оценок уверенности без необходимости дополнительного обучения модели. В исследовании вводится новый показатель — Keyword-Prioritized Correction Score (KPCS), который оценивает точность критически важных ключевых слов в эталонном тексте. Эксперименты, проведенные на четырех многоязычных медицинских наборах данных клинических заметок, демонстрируют значительное улучшение показателей производительности. Эти результаты подчеркивают улучшенную интерпретируемость, устойчивость и адаптивность для более безопасного развертывания больших языковых моделей в здравоохранении. Код для бенчмарка MedErrBench общедоступен на GitHub.

arxiv arXiv cs.CL · 14 ч назад

RAS: Измерение безопасности LLM через согласование с отказом

Авторы предлагают SafeVec, процедуру оценки белого ящика, которая измеряет безопасность больших языковых моделей (LLM) по внутренним репрезентациям, а не по сгенерированным выводам. Этот метод извлекает послойные направления отказа от модели-эталона, выровненной по безопасности, чтобы выявить стабильные слои, в которых безопасное и небезопасное поведение разделяемо. Затем целевые модели оцениваются путем проверки того, совпадают ли их скрытые состояния с этими направлениями отказа при использовании небезопасных запросов. Полученная метрика RAS (Refusal Alignment Score) отображает это согласование на калиброванный показатель безопасности от 0 до 100. Эксперименты в семействах Llama, Gemma и Qwen показывают, что RAS эффективно разделяет выровненные модели и их версии без цензуры. Кроме того, метрика отслеживает уровень успешности атак на уровне вывода, будучи существенно быстрее оценок, основанных на судьях (judge-based evaluations). Эти результаты указывают на то, что согласование с отказом предоставляет компактный и эффективный сигнал для оценки безопасности белого ящика.

arxiv arXiv cs.CL · 14 ч назад

Хватает ли только энкодеров? Систематическое сравнение судей безопасности на основе энкодеров и декодеров для adversarial-оценки больших языковых моделей

В данном исследовании оценивается, могут ли дообученные классификаторы ModernBERT в качестве энкодеров служить экономически эффективной альтернативой судьям на основе больших языковых моделей (LLM) для оценки безопасности. Исследователи провели бенчмаркинг ModernBERT и Ettin по сравнению с правиловым префиксным сопоставлением, дообученными классификаторами LLM и различными методологиями использования LLM в качестве судей. Эти LLM-судьи включали стратегии из StrongReject, ShieldGemma, JailbreakBench, AILuminate, SorryBench, Claude-as-a-judge, а также модели, такие как LlamaGuard 3 и 4. Классификаторы на основе энкодеров были обучены на данных с метками, полученными от судей, с использованием стратегии мажоритарного голосования для формирования меток, и протестированы на золотом стандарте (выделенной тестовой выборке). Производительность измерялась с помощью F1-меры, доли ложноотрицательных результатов и метрик точности и полноты по наборам данных adversarial-атак с открытым исходным кодом. Результаты дополнительно проанализированы по типу атаки, включая однократное формирование запроса (single-turn prompting), декомпозицию, эскалацию и манипуляцию контекстом. Полученные выводы дают рекомендации относительно того, когда классификаторы на основе энкодеров могут надежно заменять судей на основе LLM без существенной потери производительности.

arxiv arXiv cs.CL · 15 ч назад

Бенчмарк Argus оценивает стабильность количественной оценки неопределённости для моделей «зрение-язык» и наборов данных GUI Grounding

Авторы представляют Argus, бенчмарк, предназначенный для оценки постхоковой количественной оценки неопределённости для агентов компьютерного использования, которые преобразуют предсказания моделей «зрение-язык» в исполняемые действия GUI. Исследование оценивает 28 методов с открытым исходным кодом на четырёх агентах VLM и четырёх наборах данных, а также восемь закрытых коммерческих методов от трёх поставщиков, где внутренние состояния моделей недоступны. Ключевые выводы выявляют селективную стабильность переноса: рейтинги неопределённости остаются согласованными для фиксированной модели в разных наборах данных, но значительно ухудшаются при переходе между различными классами моделей или наблюдаемыми интерфейсами. Среди методов с открытым исходным кодом техники оценки скрытых состояний и плотности продемонстрировали наивысшую стабильность, тогда как в определённых режимах предпочтительными оказались оценки на основе сэмплирования или вербализованной самооценки. Перенос внутри-модельных рейтингов оказался сильным со значениями ранговой корреляции Спирмена до 0,969, тогда как межуровневый перенос к закрытым коммерческим поставщикам в среднем составил лишь +0,08. Исследование также показывает, что конформные области кликов уменьшают радиусы на 40–60 процентов после калибровки, но страдают от снижения покрытия при несовпадении интерфейсов. Для поддержки выбора с учётом режима авторы публикуют записи по каждому элементу, разделения для калибровки, оценки UQ и скрипты анализа.

arxiv arXiv cs.CL · 15 ч назад

Как большие языковые модели формируют репутацию брендов в разных языках и рынках

В данном исследовании анализируются источники цитирования, используемые большими языковыми моделями при ответах на вопросы о брендах, с акцентом на лежащие в основе веб-ссылки, а не только на сгенерированный текст. Исследователи объединили три набора данных Rankfor.AI для изучения 167 551 URL-привязанной цитаты, относящейся к 128 брендам в 12 домашних рынках и на 13 языках. Анализ показывает, что ИИ опирается на ответы о брендах преимущественно на сторонние источники: 85,7% ссылок ведут на сайты, не принадлежащие бренду, по сравнению лишь с 14,3% для доменов, находящихся в собственности бренда. База источников сильно сконцентрирована и подчиняется закону Ципфа: 80% цитат происходят примерно от 18% доменов. Wikipedia становится доминирующим ссылочным ресурсом, являясь самым цитируемым доменом в 11 из 12 изученных языков. Единственным исключением является литовский язык, где деловая газета vz.lt немного опережает Wikipedia с долей 4,38%. Кроме того, состав источников демонстрирует вариации, специфичные для рынка: например, YouTube является самым цитируемым доменом для польских национальных брендов, а HR-порталы предоставляют больше ссылок, чем польская версия Wikipedia.

arxiv arXiv cs.CL · 15 ч назад

ToolBench-X: Оценка агентов, использующих инструменты, в ненадежных средах

Авторы представляют ToolBench-X, новый бенчмарк, предназначенный для оценки агентов на основе больших языковых моделей в условиях восстанавливаемой ненадежности инструментальной среды. В отличие от существующих бенчмарков, предполагающих чистые и стабильные среды, данная фреймворк внедряет пять структурированных типов опасностей: Specification Drift (дрейф спецификации), Invocation Error (ошибка вызова), Execution Failure (сбой выполнения), Output Drift (дрейф вывода) и Cross-source Conflict (конфликт между источниками). Набор данных содержит исполняемые многошаговые задачи в различных доменах с детерминированными инструментами и каноническими окончательными ответами для автоматической оценки. Ключевым аспектом является то, что каждый внедренный экземпляр остается решаемым через корректные пути восстановления, такие как повторная попытка, использование резервного варианта или проверка. Эксперименты выявляют существенный разрыв в надежности: агенты, демонстрирующие хорошие результаты при работе с надежными инструментами, часто терпят неудачу под воздействием этих опасностей. Дополнительный анализ показывает, что сбои обусловлены ограниченной способностью к диагностике опасностей и неэффективным восстановлением, а не объемом использования инструментов или вычислительным бюджетом на инференс. Целевые подсказки для восстановления успешно позволяют завершить многие упавшие задачи, тогда как масштабирование во время тестирования дает более скромные улучшения. Эти результаты указыва

arxiv arXiv cs.LG · 16 ч назад

SAFER: Адаптивное ансамблирование, управляемое надёжностью, для устойчивой адаптации во время тестирования

Авторы решают проблему хрупкости адаптации во время тестирования (TTA) в условиях потоков, загрязнённых состязательными воздействиями, предлагая SAFER — фреймворк для устойчивой TTA, не требующий обучения. SAFER действует как обёртка для аугментации, заменяя предсказания по одному представлению данных на агрегированный предиктор, управляемый надёжностью, для стабилизации онлайн-обновлений. Для каждого тестового образца метод генерирует стохастические аугментации и агрегирует их выходные данные с помощью корреляционно-взвешенного пулинга в сочетании с обнаружением выбросов. Также предлагается расширение с адаптивным смешиванием, которое корректирует веса между исходными и аугментированными входными данными на основе сигналов несогласованности признаков, чтобы сохранять качество работы на чистых данных. Исследователи оценили SAFER на наборах данных PACS, VLCS и OfficeHome в условиях атак PGD при различных уровнях интенсивности. Результаты показывают, что SAFER повышает устойчивость методов TTA к состязательным атакам, сохраняя конкурентоспособную точность на чистых данных.

arxiv arXiv cs.LG · 16 ч назад

ORBIT: Обучение без дообучения для многоатрибутивного поведенческого управления посредством ортогонального вращения подпространства

Авторы представляют ORBIT — метод, не требующий дообучения, для одновременного контроля нескольких поведенческих атрибутов в больших языковых моделях. Существующие техники активационного управления (activation steering) сталкиваются с трудностями при многоатрибутивном контроле из-за дисбаланса норм и направленной отмены при использовании наивного векторного суммирования. ORBIT решает эту проблему, конструируя совместное подпространство из плоскостей управления для каждого атрибута с помощью сингулярного разложения (SVD). Затем в этом подпространстве применяется единственное сохраняющее норму вращение к объединённому целевому направлению. Метод включает адаптивное посимвольное (per-token) гейтирование для выявления необходимых коррекций на каждой позиции и необязательное аддитивное усиление для слабых проекций. Для оценки подхода авторы представляют TraitFactory — бенчмарк, ориентированный на поведенческие тенденции, а не на поверхностный стиль. Эксперименты на моделях Llama-3.2-3B, Qwen-2.5-7B и Llama-3.1-8B демонстрируют, что ORBIT обеспечивает более сильное и сбалансированное управление по сравнению с базовыми методами, сохраняя при этом связность вывода.

arxiv arXiv cs.LG · 16 ч назад

Оценка физической согласованности в генерации видео на основе мировых моделей без опорных данных

Авторы предлагают методы оценки физической согласованности генерируемых видео без использования опорных данных, объединяющие оценку относительной и абсолютной точности. Этот подход устраняет пробел в оценке физической достоверности, который часто мешает инструментам генерации видео, таким как WorldGym или WorldEval, точно воспроизводить реальные показатели успешности выполнения задач для моделей VLA. В отличие от существующих методов, требующих дорогостоящего человеческого голосования или недоступных эталонных данных, новая архитектура использует DROID-SLAM и SEA-RAFT для количественной оценки несоответствий. Основываясь на WorldScore, оценка относительной согласованности позволяет фильтровать видео и повышать показатели успешности выполнения задач более чем на 8%. Кроме того, абсолютная оценка обеспечивает пространственно-временную локализацию, позволяющую визуализировать, когда и где в сгенерированном контенте возникают физические артефакты.

arxiv arXiv cs.LG · 16 ч назад

Kiwano: открытая библиотека PyTorch для исследований в области верификации говорящих

Исследователи представили Kiwano — открытую библиотеку, предназначенную для развития исследований и оценки в области верификации говорящих. Построенная на базе PyTorch, эта легковесная, но расширяемая фреймворк предоставляет стандартизированные рецепты обучения, предварительно обученные модели и интеграцию широко используемых архитектур. Проект делает акцент на воспроизводимости результатов за счет предоставления прозрачных конвейеров обучения, унифицированных протоколов оценки и готовых базовых реализаций (baselines) для нескольких корпусов данных. Помимо стандартных возможностей обучения и вывода, Kiwano включает специализированные инструменты для бенчмаркинга, отслеживания экспериментов и быстрого прототипирования новых архитектур. Для поощрения внедрения в сообществе библиотека распространяется под лицензией Apache 2.0 и сопровождается всесторонней документацией и воспроизводимыми экспериментами. Снижая порог входа и стандартизируя практики оценки, Kiwano стремится стать ценным ресурсом как для академических исследований, так и для прикладной разработки. Проект доступен в открытом доступе на GitHub по адресу https://github.com/kiwano-toolkit/kiwano/.