Evaluation & benchmarks — korshunov.ai

Evaluation & benchmarks Страница 2 / 44

STC улучшает обслуживание клиентов на арабском языке с помощью анализа настроений MARBERT

Saudi Telecom Company (STC) стремится повысить удовлетворенность пользователей, используя обратную связь из Twitter для анализа настроений. Исследование восполняет пробел в обработке естественного языка на арабском языке путем обучения модели MARBERT на специфическом наборе данных из 24 513 твитов. Эта коллекция включает 1 437 положительных, 13 828 отрицательных и 5 694 нейтральных твитов, а также 1 221 саркастических и 2 297 неопределенных записей. Основная цель заключается в анализе этих настроений для повышения отзывчивости службы поддержки клиентов STC. Производительность оценивалась с использованием метрик f1-score, precision и recall для обеспечения надежного обнаружения спама и настроений. Результаты показывают, что предложенная схема обеспечивает перспекточную точность по сравнению с существующими методами в литературе.

arxiv arXiv cs.CL · 9 ч назад

Поведенческие факторы несоответствия рейтингов и тональности в отзывах о туризме Шри-Ланки

Настоящее исследование изучает несоответствие между звездными рейтингами и тональностью текстовых отзывов в отзывах о туристических достопримечательностях Шри-Ланки. Проанализировав набор данных из 16 156 отзывов за период с 2010 по 2023 год, исследователи использовали конвейер на основе трансформеров для независимого определения тональности текста без учета присвоенных рейтингов. Анализ показывает, что 18,6% отзывов демонстрируют несоответствие, в первую очередь обусловленное поведением «консервативного оценщика» и «обязательной пятизвездочной оценки». Эти расхождения варьируются в зависимости от типа объекта: музеи демонстрируют самые высокие показатели расхождений. Статистические тесты, логистическая регрессия, Random Forest и SHAP-анализ выявили тип объекта, экспертность рецензента, длину отзыва и временные факторы как ключевые причины этого явления. Результаты показывают, что звездные рейтинги не являются взаимозаменяемыми с текстовой тональностью и требуют проверки перед использованием в качестве эталонных меток (ground-truth) в задачах NLP.

arxiv arXiv cs.CL · 9 ч назад

Бенчмарк SWE-Pro выявляет значительный разрыв между LLM и экспертной оптимизацией программного обеспечения

Бенчмарк SWE-Pro решает проблему отсутствия реалистичных оценочных фреймворков для оптимизации производительности программного обеспечения, предлагая набор данных на уровне репозитория, полученный из 102 оптимизаций, написанных экспертами. В отличие от предыдущих бенчмарков, которые чрезмерно упрощают задачи, SWE-Pro сопоставляет каждую задачу с параметризованными тестами для оценки времени выполнения, пикового потребления памяти и Времени-Взвешенного Использования Памяти (Time-Weighted Memory Usage) в условиях, учитывающих наличие шума. Исследование показывает, что современные большие языковые модели (LLM) испытывают значительные трудности с этими сложными требованиями, демонстрируя пренебрежимо малые улучшения времени выполнения и практически отсутствующие оптимизации потребления памяти. В резком контрасте с этим экспертные реализации обеспечили совокупное ускорение в 15.5 раза и снижение пикового потребления памяти в 171.3 раза по задачам бенчмарка. Экспертные улучшения были зафиксированы в 91.2% задач для времени выполнения и в 65.7% для пикового потребления памяти. Эти выводы обнажают существенный разрыв между текущими возможностями LLM и требованиями инженерии экспертного уровня.

arxiv arXiv cs.CL · 9 ч назад

SFL-MTSC: Использование семантической кадра-уровневой многозадачной самосогласованности для надежного понимания разговорной речи с несколькими намерениями

Понимание разговорной речи на основе промптов с использованием больших языковых моделей часто страдает от несогласованности структур намерений и слотов из-за стохастичности декодирования, особенно в сценариях с несколькими намерениями. Чтобы решить эту проблему, исследователи предлагают семантическую кадра-уровневую многозадачную самосогласованность (SFL-MTSC) — новую структурированную схему агрегации, работающую на уровне семантических кадров. Вместо опираниясь на голосование большинства на уровне вывода, SFL-MTSC разбивает предсказания на кадры, специфичные для намерений, и применяет группировку по домену и намерению вместе с кластеризацией на уровне слотов. Схема оценивает надежность кластеров с помощью подсчета поддержки пути, чтобы определить, какие кадры являются надежными. Надежные кадры сохраняются и повторно интегрируются для формирования окончательного предсказания, обеспечивая большую структурную согласованность. Эксперименты в режиме zero-shot на наборе данных MAC-SLU демонстрируют улучшение показателей F1 для слотов и общей точности по сравнению с однопутным выводом. Точность определения намерений остается в значительной степени стабильной во большинстве настроек, при этом достигаются эти улучшения на уровне слотов.

arxiv arXiv cs.CL · 10 ч назад

MedGuards: Многоагентная система для надежного обнаружения и исправления медицинских ошибок

Авторы предлагают MedGuards, фреймворк защитных механизмов безопасности в медицине, предназначенный для обнаружения и исправления ошибок в тексте, сгенерированном большими языковыми моделями. Эта система рассматривает обработку ошибок как задачу контекстного обучения с несколькими агентами, где специализированные агенты по отдельности выполняют обнаружение, локализацию и исправление. Механизм арбитража, управляемый уверенностью, разрешает разногласия между агентами с использованием цепочек рассуждений и оценок уверенности без необходимости дополнительного обучения модели. В исследовании вводится новый показатель — Keyword-Prioritized Correction Score (KPCS), который оценивает точность критически важных ключевых слов в эталонном тексте. Эксперименты, проведенные на четырех многоязычных медицинских наборах данных клинических заметок, демонстрируют значительное улучшение показателей производительности. Эти результаты подчеркивают улучшенную интерпретируемость, устойчивость и адаптивность для более безопасного развертывания больших языковых моделей в здравоохранении. Код для бенчмарка MedErrBench общедоступен на GitHub.

arxiv arXiv cs.CL · 10 ч назад

RAS: Измерение безопасности LLM через согласование с отказом

Авторы предлагают SafeVec, процедуру оценки белого ящика, которая измеряет безопасность больших языковых моделей (LLM) по внутренним репрезентациям, а не по сгенерированным выводам. Этот метод извлекает послойные направления отказа от модели-эталона, выровненной по безопасности, чтобы выявить стабильные слои, в которых безопасное и небезопасное поведение разделяемо. Затем целевые модели оцениваются путем проверки того, совпадают ли их скрытые состояния с этими направлениями отказа при использовании небезопасных запросов. Полученная метрика RAS (Refusal Alignment Score) отображает это согласование на калиброванный показатель безопасности от 0 до 100. Эксперименты в семействах Llama, Gemma и Qwen показывают, что RAS эффективно разделяет выровненные модели и их версии без цензуры. Кроме того, метрика отслеживает уровень успешности атак на уровне вывода, будучи существенно быстрее оценок, основанных на судьях (judge-based evaluations). Эти результаты указывают на то, что согласование с отказом предоставляет компактный и эффективный сигнал для оценки безопасности белого ящика.

arxiv arXiv cs.CL · 11 ч назад

Хватает ли только энкодеров? Систематическое сравнение судей безопасности на основе энкодеров и декодеров для adversarial-оценки больших языковых моделей

В данном исследовании оценивается, могут ли дообученные классификаторы ModernBERT в качестве энкодеров служить экономически эффективной альтернативой судьям на основе больших языковых моделей (LLM) для оценки безопасности. Исследователи провели бенчмаркинг ModernBERT и Ettin по сравнению с правиловым префиксным сопоставлением, дообученными классификаторами LLM и различными методологиями использования LLM в качестве судей. Эти LLM-судьи включали стратегии из StrongReject, ShieldGemma, JailbreakBench, AILuminate, SorryBench, Claude-as-a-judge, а также модели, такие как LlamaGuard 3 и 4. Классификаторы на основе энкодеров были обучены на данных с метками, полученными от судей, с использованием стратегии мажоритарного голосования для формирования меток, и протестированы на золотом стандарте (выделенной тестовой выборке). Производительность измерялась с помощью F1-меры, доли ложноотрицательных результатов и метрик точности и полноты по наборам данных adversarial-атак с открытым исходным кодом. Результаты дополнительно проанализированы по типу атаки, включая однократное формирование запроса (single-turn prompting), декомпозицию, эскалацию и манипуляцию контекстом. Полученные выводы дают рекомендации относительно того, когда классификаторы на основе энкодеров могут надежно заменять судей на основе LLM без существенной потери производительности.

arxiv arXiv cs.CL · 11 ч назад

Бенчмарк Argus оценивает стабильность количественной оценки неопределённости для моделей «зрение-язык» и наборов данных GUI Grounding

Авторы представляют Argus, бенчмарк, предназначенный для оценки постхоковой количественной оценки неопределённости для агентов компьютерного использования, которые преобразуют предсказания моделей «зрение-язык» в исполняемые действия GUI. Исследование оценивает 28 методов с открытым исходным кодом на четырёх агентах VLM и четырёх наборах данных, а также восемь закрытых коммерческих методов от трёх поставщиков, где внутренние состояния моделей недоступны. Ключевые выводы выявляют селективную стабильность переноса: рейтинги неопределённости остаются согласованными для фиксированной модели в разных наборах данных, но значительно ухудшаются при переходе между различными классами моделей или наблюдаемыми интерфейсами. Среди методов с открытым исходным кодом техники оценки скрытых состояний и плотности продемонстрировали наивысшую стабильность, тогда как в определённых режимах предпочтительными оказались оценки на основе сэмплирования или вербализованной самооценки. Перенос внутри-модельных рейтингов оказался сильным со значениями ранговой корреляции Спирмена до 0,969, тогда как межуровневый перенос к закрытым коммерческим поставщикам в среднем составил лишь +0,08. Исследование также показывает, что конформные области кликов уменьшают радиусы на 40–60 процентов после калибровки, но страдают от снижения покрытия при несовпадении интерфейсов. Для поддержки выбора с учётом режима авторы публикуют записи по каждому элементу, разделения для калибровки, оценки UQ и скрипты анализа.

arxiv arXiv cs.CL · 12 ч назад

Как большие языковые модели формируют репутацию брендов в разных языках и рынках

В данном исследовании анализируются источники цитирования, используемые большими языковыми моделями при ответах на вопросы о брендах, с акцентом на лежащие в основе веб-ссылки, а не только на сгенерированный текст. Исследователи объединили три набора данных Rankfor.AI для изучения 167 551 URL-привязанной цитаты, относящейся к 128 брендам в 12 домашних рынках и на 13 языках. Анализ показывает, что ИИ опирается на ответы о брендах преимущественно на сторонние источники: 85,7% ссылок ведут на сайты, не принадлежащие бренду, по сравнению лишь с 14,3% для доменов, находящихся в собственности бренда. База источников сильно сконцентрирована и подчиняется закону Ципфа: 80% цитат происходят примерно от 18% доменов. Wikipedia становится доминирующим ссылочным ресурсом, являясь самым цитируемым доменом в 11 из 12 изученных языков. Единственным исключением является литовский язык, где деловая газета vz.lt немного опережает Wikipedia с долей 4,38%. Кроме того, состав источников демонстрирует вариации, специфичные для рынка: например, YouTube является самым цитируемым доменом для польских национальных брендов, а HR-порталы предоставляют больше ссылок, чем польская версия Wikipedia.

arxiv arXiv cs.CL · 12 ч назад

ToolBench-X: Оценка агентов, использующих инструменты, в ненадежных средах

Авторы представляют ToolBench-X, новый бенчмарк, предназначенный для оценки агентов на основе больших языковых моделей в условиях восстанавливаемой ненадежности инструментальной среды. В отличие от существующих бенчмарков, предполагающих чистые и стабильные среды, данная фреймворк внедряет пять структурированных типов опасностей: Specification Drift (дрейф спецификации), Invocation Error (ошибка вызова), Execution Failure (сбой выполнения), Output Drift (дрейф вывода) и Cross-source Conflict (конфликт между источниками). Набор данных содержит исполняемые многошаговые задачи в различных доменах с детерминированными инструментами и каноническими окончательными ответами для автоматической оценки. Ключевым аспектом является то, что каждый внедренный экземпляр остается решаемым через корректные пути восстановления, такие как повторная попытка, использование резервного варианта или проверка. Эксперименты выявляют существенный разрыв в надежности: агенты, демонстрирующие хорошие результаты при работе с надежными инструментами, часто терпят неудачу под воздействием этих опасностей. Дополнительный анализ показывает, что сбои обусловлены ограниченной способностью к диагностике опасностей и неэффективным восстановлением, а не объемом использования инструментов или вычислительным бюджетом на инференс. Целевые подсказки для восстановления успешно позволяют завершить многие упавшие задачи, тогда как масштабирование во время тестирования дает более скромные улучшения. Эти результаты указыва

arxiv arXiv cs.LG · 12 ч назад

ORBIT: Обучение без дообучения для многоатрибутивного поведенческого управления посредством ортогонального вращения подпространства

Авторы представляют ORBIT — метод, не требующий дообучения, для одновременного контроля нескольких поведенческих атрибутов в больших языковых моделях. Существующие техники активационного управления (activation steering) сталкиваются с трудностями при многоатрибутивном контроле из-за дисбаланса норм и направленной отмены при использовании наивного векторного суммирования. ORBIT решает эту проблему, конструируя совместное подпространство из плоскостей управления для каждого атрибута с помощью сингулярного разложения (SVD). Затем в этом подпространстве применяется единственное сохраняющее норму вращение к объединённому целевому направлению. Метод включает адаптивное посимвольное (per-token) гейтирование для выявления необходимых коррекций на каждой позиции и необязательное аддитивное усиление для слабых проекций. Для оценки подхода авторы представляют TraitFactory — бенчмарк, ориентированный на поведенческие тенденции, а не на поверхностный стиль. Эксперименты на моделях Llama-3.2-3B, Qwen-2.5-7B и Llama-3.1-8B демонстрируют, что ORBIT обеспечивает более сильное и сбалансированное управление по сравнению с базовыми методами, сохраняя при этом связность вывода.

arxiv arXiv cs.LG · 12 ч назад

Оценка физической согласованности в генерации видео на основе мировых моделей без опорных данных

Авторы предлагают методы оценки физической согласованности генерируемых видео без использования опорных данных, объединяющие оценку относительной и абсолютной точности. Этот подход устраняет пробел в оценке физической достоверности, который часто мешает инструментам генерации видео, таким как WorldGym или WorldEval, точно воспроизводить реальные показатели успешности выполнения задач для моделей VLA. В отличие от существующих методов, требующих дорогостоящего человеческого голосования или недоступных эталонных данных, новая архитектура использует DROID-SLAM и SEA-RAFT для количественной оценки несоответствий. Основываясь на WorldScore, оценка относительной согласованности позволяет фильтровать видео и повышать показатели успешности выполнения задач более чем на 8%. Кроме того, абсолютная оценка обеспечивает пространственно-временную локализацию, позволяющую визуализировать, когда и где в сгенерированном контенте возникают физические артефакты.

arxiv arXiv cs.LG · 12 ч назад

Kiwano: открытая библиотека PyTorch для исследований в области верификации говорящих

Исследователи представили Kiwano — открытую библиотеку, предназначенную для развития исследований и оценки в области верификации говорящих. Построенная на базе PyTorch, эта легковесная, но расширяемая фреймворк предоставляет стандартизированные рецепты обучения, предварительно обученные модели и интеграцию широко используемых архитектур. Проект делает акцент на воспроизводимости результатов за счет предоставления прозрачных конвейеров обучения, унифицированных протоколов оценки и готовых базовых реализаций (baselines) для нескольких корпусов данных. Помимо стандартных возможностей обучения и вывода, Kiwano включает специализированные инструменты для бенчмаркинга, отслеживания экспериментов и быстрого прототипирования новых архитектур. Для поощрения внедрения в сообществе библиотека распространяется под лицензией Apache 2.0 и сопровождается всесторонней документацией и воспроизводимыми экспериментами. Снижая порог входа и стандартизируя практики оценки, Kiwano стремится стать ценным ресурсом как для академических исследований, так и для прикладной разработки. Проект доступен в открытом доступе на GitHub по адресу https://github.com/kiwano-toolkit/kiwano/.

arxiv arXiv cs.LG · 14 ч назад

VRA-FedSGD: Снижение дисперсии в федеративном обучении для тяжёлых хвостов шума

Авторы предлагают VRA-FedSGD — алгоритм на основе снижения дисперсии, разработанный для федеративного обучения в средах с градиентным и коммуникационным шумом с тяжёлыми хвостами. Этот подход решает проблемы, характерные для крупномасштабного машинного обучения в беспроводных сетях и развертываниях Интернета вещей (IoT). Метод использует снижение дисперсии на основе импульса в сочетании с нелинейным отображением для смягчения градиентного шума с тяжёлыми хвостами. Он также применяет механизм агрегации со сниженной дисперсией для подавления коммуникационного шума с тяжёлыми хвостами. Для невыпуклых целевых функций VRA-FedSGD достигает скорости сходимости по среднему значению O(K^(-(p-1)/(2p-1))), где p — индекс хвоста. В смысле почти наверное достигается скорость Õ(K^(-(1-1/(p-ε))) для сильно выпуклых целевых функций, где ε — произвольно малая константа. Симуляционные эксперименты на логистической регрессии с реальными данными подтверждают эффективность алгоритма.

media Hugging Face Forums · 15 ч назад

Вопрос сообщества о методах бенчмаркинга моделей

Пользователь форума обсуждений Hugging Face задал вопрос, ища совета по поводу того, как проводить бенчмаркинг моделей машинного обучения. Запрос был инициирован человеком, который новичок в области дообучения (fine-tuning) и хочет оценить свои модели после завершения работы. В посте явно спрашивается о устоявшихся методах или стратегиях, которые использует сообщество для этой цели. Это подчеркивает общую потребность среди практиков в понимании стандартных практик оценки при разработке моделей. В текущей ветке обсуждения содержится только один пост от одного участника. В видимом содержании источника не было предоставлено никаких конкретных бенчмарков, метрик или технических решений.

arxiv arXiv cs.LG · 17 ч назад

Дифференцируемая атари ВЦС для объяснимой ИИ

Представлена полностью дифференцируемая эмуляция атари 2600 ВЦС, воспроизводящая все 64 игры ALE с точностью до бита в памяти и выводе экрана. Система обеспечивает объяснимую ИИ на основе градиентов, предоставляя сложную, полностью известную истину, с реализацией на Julia и JAX, проверенной в отношении отсылки эмулятора и поддерживающей высокую производительность обучения на GPU.

arxiv arXiv cs.LG · 17 ч назад

AdaR: адаптивный рекуррентный передача сообщений для графовых вычислений на этапе тестирования

AdaR обеспечивает гибкие вычисления на этапе тестирования для графов без изменения параметров, используя адаптивную рекурсию. Оно выявляет зависимость шага как необходимое и достаточное условие сходимости и включает нормализованные данные шага и отношения к целевым представлениям в рекуррентные обновления, направляя их по сигналам надзора на основе градиентов. Эмпирические результаты показывают, что AdaR превосходит сильные базовые модели как в индуктивных, так и в трансдуктивных настройках обучения графов.

arxiv arXiv cs.LG · 18 ч назад

Недостатки приложения с интеграцией LLM показывают пробелы в тестировании

Помощник по поиску аренды с функциями LLM и поддержкой нескольких рынков сталкивался с постоянными дефектами пользователей, несмотря на 1553 прошедших автоматизированных тестов. Анализ 252 коммитов по устранению багов показал, что 44% исправлений происходили в четырех незамеченных местах: в среде браузера, в неподходящих рынках, в цепочках конечных процессов и на уровне всей системы. Исправление без защиты на месте привело к тому, что дефект был выпущен дважды, что подчеркивает необходимость целенаправленного тестирования на этих границах.

arxiv arXiv cs.LG · 18 ч назад

Эффект ножниц: расширение разнообразия ухудшает устойчивость переноса

Разнообразие входных данных, распространённая практика в атаках на перенос, повышает успех на стандартных переносчиках, но снижает его на устойчивых. Этот зависимый от режима эффект, называемый эффектом ножниц, обусловлен геометрией градиентов, при этом операции масштабирования ухудшают сопоставимость в устойчивых моделях. Без обучения правило (CG-DI) корректирует разнообразие на основе локальной согласованности градиентов, чтобы сохранить успех атаки на разных типах переносчиков.

arxiv arXiv cs.LG · 18 ч назад

HERTA: Автоматизированный тест на уязвимости в фреймворках полной гомоморфной криптографии

HERTA — первый автоматизированный инструмент для тестирования фреймворков полной гомоморфной криптографии. Он использует метаморфный тест с новыми отношениями, выведенными из семантики FHE, для обнаружения глубоких логических ошибок, которые могут незаметно испортить зашифрованные вычисления. Оценка на трех промышленных фреймворках выявила 21 ранее неизвестную ошибку, несколько из которых были подтверждены и исправлены разработчиками, что имеет значительные последствия для безопасности и целостности сервиса.