Evaluation & benchmarks — korshunov.ai

Evaluation & benchmarks Страница 1 / 45

Слепота к лексикону ключевых слов искажает измерение риторической позиции

Исследование, проанализировавшее 85 интервью с четырьмя публичными интеллектуалами, показывает, что оценка на основе ключевых слов может создавать статистические артефакты в отношении риторической позиции. Первоначальный анализ выявил устойчивую закономерность совместного появления негативной аффективности и категоричной уверенности с высокими коэффициентами корреляции, варьирующимися от r = 0,72 до 0,93. Однако замена этого метода на семантическую классификацию LLM в режиме zero-shot для всего диааризированного корпуса из 32 625 предложений значительно снизила эти корреляции. Например, корреляция Далио упала с 0,851 до 0,206, тогда как у других спикеров наблюдалась отрицательная или нулевая связь между негативностью и уверенностью. Напротив, анализ LLM выявил сильную связь между негативным сентиментом и языком оговорок (hedging), что соответствует обычным ожиданиям относительно пессимистичного дискурса. Расхождение обусловлено тремя структурными недостатками лексиконов ключевых слов: синтаксической слепотой, слепотой к полисемии и отсутствием категорий. Эти недостатки могут инвертировать семантическое значение, например, оценивая фразу 'никогда абсолютно полностью уверен' как высокую уверенность. Авторы утверждают, что подсчет ключевых слов измеряет тенденции к лексическому совместному появлению, а не эпистемическую уверенность, что представляет собой категориальную ошибку.

arxiv arXiv cs.CL · 12 ч назад

Аудит чувствительности к порядку в мультимодальных больших языковых моделях

В исследовании представлен Facet-Probe, аудит по пяти граням 18 передовых и моделей с открытым весом (open-weight) для оценки чувствительности к порядку. Стандартные бенчмарки часто упускают из виду, приводит ли перестановка доказательств к изменению ответов, что является свойством надежности, подчеркиваемым в новых руководящих принципах оценки ИИ. Используя байесовскую модель ответа на элемент (item-response), исследователи отделили шум порядка от смещения по каждой грани и оценили нижние границы стохастичности декодера с помощью контрольных групп с неизменным порядком. Аудит показал, что ни одна из 18 моделей не является инвариантной к порядку, при этом средние для панели доли переворота ответов варьируются от 24% до 50% в зависимости от граней. Даже лучшая по производительности модель меняла ответ в 13,4% испытаний, что указывает на то, что более высокая способность не устраняет эту уязвимость. Тесты смягчения с использованием изменений промптов без дообучения оказались условно зависящими от модальности и не переносились между задачами текстового и визуального рассуждения. Эти выводы свидетельствуют о том, что исправления на уровне промпта недостаточны для общей устойчивости к порядку, что стимулирует разработку архитектурных решений. Авторы предлагают долю переворота ответов при перестановке порядка в качестве стандартной оси отчетности для будущих оценок мультимодальных больших языковых моделей (MLLM).

arxiv arXiv cs.CL · 12 ч назад

Голосовой ИИ в реальном времени слышит, но не слушает

Исследование оценивает четыре ведущих производственных системы голосового взаимодействия в реальном времени: GPT Realtime 2 от OpenAI, Gemini 3.1 Flash Live от Google, а также Qwen3.5 Omni Plus и Omni Flash от Alibaba. Исследование сосредоточено на задачах, где как слова, так и вокальное исполнение несут значимую информацию в трех важных сценариях. Все четыре системы реагируют на буквальные слова, а не на голос, что приводит к ошибкам, таким как завершение разговоров с плачущими пользователями, которые настаивают, что всё в порядке, или одобрению денежных переводов, совершённых испуганным голосом. Удивительно, но этот разрыв часто не является ошибкой восприятия: три из четырёх систем могут надёжно распознавать дистресс, страх или сарказм, если их спросить напрямую. Несмотря на это осознание, модели игнорируют эти эмоциональные сигналы при принятии решений, демонстрируя то, что авторы называют «пробелом в эмоциональном интеллекте». В исследовании также отмечается, что системы оценивают акцент и возраст на основе языковых предубеждений, а не акустических свойств. Прямое указание системам обращать внимание на вокальное исполнение улучшает производительность лишь частично и непоследовательно. Эти выводы свидетельствуют о том, что текущий голосовой ИИ в реальном времени ведёт себя так, будто речь сводится к транскрипту, что требует осторожности в ситуациях, где тон имеет критическое значение.

media r/LocalLLaMA · 13 ч назад

Запрос на Reddit о запуске больших моделей с 4–8 видеокартами RTX 6000 PRO

Пользователь Reddit ищет отзывы сообщества относительно производительности больших языковых моделей на системах, оснащённых четырьмя или восемью графическими процессорами NVIDIA RTX 6000 PRO. Запрос ориентирован в первую очередь на пользователей, располагающих от 384 ГБ до 768 ГБ видеопамяти для запуска таких моделей, как GLM 5.2, Kimi 2.7 и DeepSeek V4 Pro. Автор отмечает, что хотя эти модели технически могут работать при 4-битном квантовании, они могут не помещаться в доступный объём памяти при использовании 8-битной точности. Он ссылается на репозиторий с бенчмарками, но указывает, что в нём отсутствуют данные по самым последним релизам моделей. Один из ключевых вопросов касается того, насколько существенна деградация производительности при переходе от 4-битного к 8-битному квантованию и может ли это повлиять на выполнение агентных задач или задач программирования. Пользователь также спрашивает, какие бэкенды для инференса, такие как vLLM или SGLang, в настоящее время используются другими людьми при данной конфигурации оборудования.

arxiv arXiv cs.CL · 13 ч назад

Измерение сложности исследований в NLP: обращенная U-образная зависимость от академического влияния

В данном исследовании предлагается комплексная система оценки для измерения сложности академических исследований, рассматривающая обработку естественного языка (NLP) в качестве примера. Авторы извлекают внутренние и внешние признаки из статей, включая сотрудничество, содержание и ссылки, для вычисления нескольких индикаторов сложности. Эти индикаторы взвешиваются с использованием метода энтропийных весов и суммируются для получения итогового показателя сложности исследования. Академическое влияние количественно оценивается по частоте цитирования, а экспертные оценки подтверждают надежность предложенного подхода измерения. Эмпирические результаты показывают, что количество страниц, количество ссылок и участие институтов высокого уровня значительно коррелируют с академическим влиянием. Ключевой вывод анализа заключается в том, что между сложностью исследования и его влиянием существует обращенная U-образная зависимость. Это указывает на то, что исследования умеренной сложности, как правило, достигают наивысшего уровня академического влияния.

arxiv arXiv cs.CL · 14 ч назад

Память определяет результат: оценка того, как различные роли памяти формируют диалоговые агенты

Предыдущие исследования механизмов памяти в RAG-системах для диалога в основном фокусировались на методах хранения и извлечения. В данном исследовании изучается влияние памяти с различными функциональными ролями на качество ответов в разных контекстах. Авторы представляют детализованную таксономию диалоговой памяти для классификации извлеченных элементов по конкретным типам ролей. Они также разрабатывают ориентированную на пользователя систему оценки, имитирующую перспективы пользователей, чтобы устранить ограничения оценочных методов, основанных на эталонных ответах. Сравнительные эксперименты проводились на наборах данных с длинным контекстом с использованием передовых больших языковых моделей для анализа этих эффектов. Результаты показывают, что уточнение памяти повышает фактическую точность и осознание ограничений, что приводит к более корректным и персонализированным ответам. Напротив, было обнаружено, что нерелевантная память снижает релевантность темы и ухудшает способность учитывать ограничения. Эти выводы демонстрируют, как различные типы памяти могут быть использованы для улучшения персонализации в диалоговых агентах.

arxiv arXiv cs.CL · 14 ч назад

Sarashina2.2-TTS: Решение проблемы полифонии кандзи в японском синтезе речи посредством масштабирования данных и целевого синтеза данных

Sarashina2.2-TTS — это система преобразования текста в речь (TTS) на основе большой языковой модели (LLM), ориентированная на японский язык, предназначенная для решения лингвистической проблемы контекстно-зависимой полифонии кандзи. Модель масштабирует обучающие данные до объема примерно 361 тыс. часов, используя сбалансированное сочетание корпусов японской и английской речи. Для специфической обработки неоднозначности чтения авторы реализовали целевой конвейер аугментации данных, охватывающий все 2136 иероглифов Joyo регулярного использования. Наряду с выпуском модели в статье представлен бенчмарк Joyo Kanji Yomi Benchmark, включающий 4378 различных чтений для этих символов. Авторы также предлагают метрику Kana-CER, которая оценивает правильность произношения путем сравнения синтезированной речи с эталонными чтениями в пространстве кана. Экспериментальные результаты показывают, что такая целевая аугментация значительно улучшает точность чтения и достигает состояния переднего края (state-of-the-art) на уровне кандзи. Система демонстрирует результаты, сопоставимые с лучшими базовыми моделями, по общему уровню произношения на уровне предложений, обеспечивая при этом наибольшее сходство голоса в сценариях zero-shot синтеза. Кроме того, кросс-лингвистические оценки подтверждают, что сбалансированный подход к обучению обеспечивает стабильное японское произношение независимо от языка используемого промпта.

arxiv arXiv cs.CL · 14 ч назад

Обзор стратегий обнаружения и смягчения токсичности для многоязычных языковых моделей

В данном обобщающем исследовании синтезируются материалы по обнаружению токсичности и стратегиям детоксикации, специально разработанным для многоязычных больших языковых моделей. В нем систематизируются модели угроз, использующие лингвистические вариации, такие как код-свитчинг (переключение кодов), орфографические различия и трансляционные пивоты, для обхода механизмов безопасности. Авторы структурируют существующие работы по формулировкам задач, таким как переписывание токсичного текста в нейтральный и классификация, а также по различным подходам обнаружения, включая кроссоязычные энкодеры и детекторы на основе больших языковых моделей. Стратегии смягчения подробно рассматриваются в контексте фильтрации данных, контролируемой тонкой настройки, управления процессом декодирования и внедрения многоязычных систем контроля (guardrails). Анализ подчеркивает сохраняющиеся проблемы в области, в частности неравномерное покрытие языков и фрагментированные протоколы оценки. Кроме того, обсуждается сложность культурно обусловленных определений вреда и риск того, что усилия по детоксикации могут подавить легитимные диалектные или связанные с идентичностью формы выражения.

arxiv arXiv cs.CL · 14 ч назад

Оценка устойчивости к японским диалектам в речевых и текстовых больших языковых моделях

В данном исследовании изучается диалектная устойчивость больших языковых моделей (LLM) и речевых языковых моделей (SLM) на примере японских диалектов. Несмотря на прогресс в развитии диалоговых систем на базе LLM, диалектные вариации остаются значительной проблемой, особенно при обработке устных входных данных. В работе устойчивость определяется как отношение производительности на диалектных и стандартных входах, что позволяет проводить справедливые сравнения между различными типами моделей. Эксперименты показывают, что устойчивость SLM напрямую коррелирует с устойчивостью их базовых текстовых аналогов LLM. Кроме того, исследование выявляет, что как обучение с использованием диалектных данных, так и тонкая настройка речевого кодировщика способствуют повышению устойчивости SLM. Эти результаты проясняют влияние базовых возможностей LLM на производительность SLM и определяют эффективные стратегии улучшения понимания диалектов.

arxiv arXiv cs.CL · 15 ч назад

Оценка Reclaim показывает, что потеряющая память хуже, чем отсутствие памяти

Исследование демонстрирует, что наличие в памяти языковой модели неверных выводов более вредно, чем полное отсутствие памяти. Когда модели сохраняют устаревшие значения, отбрасывая при этом поддерживающие данные, они выдают уверенные, но ошибочные ответы, тогда как пустая память позволяет воздерживаться от ответов. Это явление, названное хрупкой памятью (brittle memory), наблюдалось в семи моделях, причем направление ошибки никогда не менялось независимо от задачи или disposition. Исследователи предложили оценку Reclaim для измерения исправляемости путем сжатия взаимодействий и проверки того, восстанавливаются ли коррекции до ground truth без использования judge. Результаты показывают, что исправляемость зависит от того, сохраняется ли исходная информация после сжатия, а не от возможностей модели. Политика source-first, которая сохраняет пересчитываемые источники и отбрасывает выводимые заключения, значительно лучше восстанавливает исправляемость по сравнению с контрольными группами, сопоставленными по длине. В циклах связанной памяти ошибки из-за потери источников необратимо искажают последующие шаги, тогда предлагаемое решение поддерживает ограниченные горизонты производительности. Выводы воспроизводятся в трех развернутых системах и реальных диалоговых данных, при этом hand-built oracle достигает идеальной точности.

arxiv arXiv cs.CL · 15 ч назад

Спектр обобщения: хроматографический подход к оценке алгоритмов обучения

Традиционные оценки сводят обучение к единому агрегированному показателю, скрывая то, насколько хорошо знания из одного примера обобщаются на другие. Авторы вводят Спектр обобщения (Generalization Spectrum) — фреймворк оценки, который измеряет обобщение для каждого образца путем отслеживания производительности по вариантам тестов с увеличивающимся расстоянием переноса. Эти варианты варьируются от точного воспроизведения до переноса реализации между языками и переноса контекста при нарративном перефрейминге. Фреймворк реализован на основе соревновательного программирования с использованием конвейера выбора и синтеза, инициированного недавними задачами для снижения риска загрязнения данных. Сравнения канонических парадигм обучения показывают, что обучение с подкреплением (Reinforcement Learning) преобразует запоминание в перенос на близкие задачи эффективнее, чем базовые методы контролируемой тонкой настройки (Supervised Fine-Tuning). Обучение в контексте (in-context learning) демонстрирует сильные, но зависящие от соответствия возможности переноса в данном контексте. Диагностические профили показывают, что локальные улучшения не обязательно расширяют радиус обобщения для всех методов. В частности, абстракции и подсказки в основном повышают локальный перенос, тогда как Контролируемая тонкая настройка с использованием эталонов (Reference SFT) сохраняет более сильный хвост распределения для дальнего переноса по сравнению с RL с подкреплением (RFT). Кроме того, самодистилляция или

arxiv arXiv cs.CL · 15 ч назад

Доработанная модель PEGASUS достигает лучших результатов на корпусе XL-Sum на английском языке

В данной статье представлен метод оптимизации абстрактного суммирования текста путем дообучения модели PEGASUS на корпусе данных XL-Sum на английском языке. Цель состоит в том, чтобы превзойти показатели базовой модели mT5 при генерации кратких резюме, которые передают ключевые идеи, а не просто извлекают предложения. Сгенерированные резюме оцениваются с помощью метрики ROUGE, которая сравнивает автоматически созданные результаты с референсами, созданными человеком. В исследовании утверждается, что дообученная модель PEGASUS достигает лучших результатов на этом конкретном наборе данных. Количественный анализ показывает улучшение показателя ROUGE-1 на 4,04% по сравнению с базовой моделью. Кроме того, модель демонстрирует значительное увеличение показателя ROUGE-2 на 15,25%. Наконец, зафиксировано улучшение показателя ROUGE-L на 3,39%, что подтверждает эффективность подхода дообучения.

arxiv arXiv cs.CL · 16 ч назад

Фреймворк для красного тестирования выявляет уязвимости верности больших языковых моделей через многоуровневую архитектуру

В данной статье представлен фреймворк для красного тестирования, предназначенный для систематического выявления уязвимостей в выводах больших языковых моделей с использованием многоуровневой архитектуры. Система применяет модели-цели, атакующие и жюри для генерации состязательных промптов и строгой оценки точности и согласованности ответов. В случае исследования оценки верности использование эксплуатационных состязательных промптов увеличило долю успешных атак до 7,9% в задачах ответа на вопросы. Исследование демонстрирует, что выбор архитектурного дизайна обычно имеет большее значение, чем масштабирование параметров, при определении безопасности модели, и показывает, как структурные ограничения формируют паттерны уязвимостей. Фреймворк демонстрирует адаптивность в различных задачах оценки, от ответов на вопросы на английском языке до суммаризации на арабском. Однако подход сталкивается с трудностями в полной автоматизации генерации состязательных промптов для разных языков. Кроме того, эксперименты выявляют ограничения в обнаружении тонких форм неверности, которые не проявляются как явные фактические противоречия.

arxiv arXiv cs.CL · 16 ч назад

Калибровка и устойчивость к состязательным атакам автоматизированной оценки ASR

В данном исследовании оценивается надежность автоматизированных судей, используемых для измерения частоты успешных атак (ASR) при джейлбрейке LLM, путем их сравнения с мнением большинства людей. Используя 596 аннотированных человеком завершений из HarmBench, авторы обнаруживают, что специализированные классификаторы безопасности дают много ложных срабатываний при высоком значении recall, но более низком precision, тогда как LLM-as-judges демонстрируют нестабильное значение recall в диапазоне от 0.06 до 0.65. Эти расхождения приводят к значительной вариативности сообщаемых показателей ASR в зависимости от того, какое семейство судей используется. Исследование также подчеркивает резкие различия в устойчивости: обертки с безвредным оформлением могут изменять решения LLM-судей от 57% до 100% случаев. Напротив, специализированные классификаторы устойчивы к таким поверхностным атакам, но остаются уязвимыми к белым ящикам GCG-атак, которые изменили 70% уверенных истинно положительных результатов, несмотря на небольшой бюджет оптимизации. Двуханнотаторский аудит подтвердил, что эти состязательные изменения сохраняют исходный вредоносный характер контента. В результате многие текущие метрики ASR признаются ненадежными как при целенаправленном давлении, так и в средних условиях. Авторы рекомендуют сообщать точность (precision) и полноту (recall) судей на данных, аннотированных человеком, а также включать состязательные проверки в будущие исследования.

arxiv arXiv cs.CL · 16 ч назад

STC улучшает обслуживание клиентов на арабском языке с помощью анализа настроений MARBERT

Saudi Telecom Company (STC) стремится повысить удовлетворенность пользователей, используя обратную связь из Twitter для анализа настроений. Исследование восполняет пробел в обработке естественного языка на арабском языке путем обучения модели MARBERT на специфическом наборе данных из 24 513 твитов. Эта коллекция включает 1 437 положительных, 13 828 отрицательных и 5 694 нейтральных твитов, а также 1 221 саркастических и 2 297 неопределенных записей. Основная цель заключается в анализе этих настроений для повышения отзывчивости службы поддержки клиентов STC. Производительность оценивалась с использованием метрик f1-score, precision и recall для обеспечения надежного обнаружения спама и настроений. Результаты показывают, что предложенная схема обеспечивает перспекточную точность по сравнению с существующими методами в литературе.

arxiv arXiv cs.CL · 16 ч назад

Поведенческие факторы несоответствия рейтингов и тональности в отзывах о туризме Шри-Ланки

Настоящее исследование изучает несоответствие между звездными рейтингами и тональностью текстовых отзывов в отзывах о туристических достопримечательностях Шри-Ланки. Проанализировав набор данных из 16 156 отзывов за период с 2010 по 2023 год, исследователи использовали конвейер на основе трансформеров для независимого определения тональности текста без учета присвоенных рейтингов. Анализ показывает, что 18,6% отзывов демонстрируют несоответствие, в первую очередь обусловленное поведением «консервативного оценщика» и «обязательной пятизвездочной оценки». Эти расхождения варьируются в зависимости от типа объекта: музеи демонстрируют самые высокие показатели расхождений. Статистические тесты, логистическая регрессия, Random Forest и SHAP-анализ выявили тип объекта, экспертность рецензента, длину отзыва и временные факторы как ключевые причины этого явления. Результаты показывают, что звездные рейтинги не являются взаимозаменяемыми с текстовой тональностью и требуют проверки перед использованием в качестве эталонных меток (ground-truth) в задачах NLP.

arxiv arXiv cs.CL · 16 ч назад

Бенчмарк SWE-Pro выявляет значительный разрыв между LLM и экспертной оптимизацией программного обеспечения

Бенчмарк SWE-Pro решает проблему отсутствия реалистичных оценочных фреймворков для оптимизации производительности программного обеспечения, предлагая набор данных на уровне репозитория, полученный из 102 оптимизаций, написанных экспертами. В отличие от предыдущих бенчмарков, которые чрезмерно упрощают задачи, SWE-Pro сопоставляет каждую задачу с параметризованными тестами для оценки времени выполнения, пикового потребления памяти и Времени-Взвешенного Использования Памяти (Time-Weighted Memory Usage) в условиях, учитывающих наличие шума. Исследование показывает, что современные большие языковые модели (LLM) испытывают значительные трудности с этими сложными требованиями, демонстрируя пренебрежимо малые улучшения времени выполнения и практически отсутствующие оптимизации потребления памяти. В резком контрасте с этим экспертные реализации обеспечили совокупное ускорение в 15.5 раза и снижение пикового потребления памяти в 171.3 раза по задачам бенчмарка. Экспертные улучшения были зафиксированы в 91.2% задач для времени выполнения и в 65.7% для пикового потребления памяти. Эти выводы обнажают существенный разрыв между текущими возможностями LLM и требованиями инженерии экспертного уровня.

arxiv arXiv cs.CL · 16 ч назад

SFL-MTSC: Использование семантической кадра-уровневой многозадачной самосогласованности для надежного понимания разговорной речи с несколькими намерениями

Понимание разговорной речи на основе промптов с использованием больших языковых моделей часто страдает от несогласованности структур намерений и слотов из-за стохастичности декодирования, особенно в сценариях с несколькими намерениями. Чтобы решить эту проблему, исследователи предлагают семантическую кадра-уровневую многозадачную самосогласованность (SFL-MTSC) — новую структурированную схему агрегации, работающую на уровне семантических кадров. Вместо опираниясь на голосование большинства на уровне вывода, SFL-MTSC разбивает предсказания на кадры, специфичные для намерений, и применяет группировку по домену и намерению вместе с кластеризацией на уровне слотов. Схема оценивает надежность кластеров с помощью подсчета поддержки пути, чтобы определить, какие кадры являются надежными. Надежные кадры сохраняются и повторно интегрируются для формирования окончательного предсказания, обеспечивая большую структурную согласованность. Эксперименты в режиме zero-shot на наборе данных MAC-SLU демонстрируют улучшение показателей F1 для слотов и общей точности по сравнению с однопутным выводом. Точность определения намерений остается в значительной степени стабильной во большинстве настроек, при этом достигаются эти улучшения на уровне слотов.

arxiv arXiv cs.CL · 17 ч назад

MedGuards: Многоагентная система для надежного обнаружения и исправления медицинских ошибок

Авторы предлагают MedGuards, фреймворк защитных механизмов безопасности в медицине, предназначенный для обнаружения и исправления ошибок в тексте, сгенерированном большими языковыми моделями. Эта система рассматривает обработку ошибок как задачу контекстного обучения с несколькими агентами, где специализированные агенты по отдельности выполняют обнаружение, локализацию и исправление. Механизм арбитража, управляемый уверенностью, разрешает разногласия между агентами с использованием цепочек рассуждений и оценок уверенности без необходимости дополнительного обучения модели. В исследовании вводится новый показатель — Keyword-Prioritized Correction Score (KPCS), который оценивает точность критически важных ключевых слов в эталонном тексте. Эксперименты, проведенные на четырех многоязычных медицинских наборах данных клинических заметок, демонстрируют значительное улучшение показателей производительности. Эти результаты подчеркивают улучшенную интерпретируемость, устойчивость и адаптивность для более безопасного развертывания больших языковых моделей в здравоохранении. Код для бенчмарка MedErrBench общедоступен на GitHub.

arxiv arXiv cs.CL · 17 ч назад

RAS: Измерение безопасности LLM через согласование с отказом

Авторы предлагают SafeVec, процедуру оценки белого ящика, которая измеряет безопасность больших языковых моделей (LLM) по внутренним репрезентациям, а не по сгенерированным выводам. Этот метод извлекает послойные направления отказа от модели-эталона, выровненной по безопасности, чтобы выявить стабильные слои, в которых безопасное и небезопасное поведение разделяемо. Затем целевые модели оцениваются путем проверки того, совпадают ли их скрытые состояния с этими направлениями отказа при использовании небезопасных запросов. Полученная метрика RAS (Refusal Alignment Score) отображает это согласование на калиброванный показатель безопасности от 0 до 100. Эксперименты в семействах Llama, Gemma и Qwen показывают, что RAS эффективно разделяет выровненные модели и их версии без цензуры. Кроме того, метрика отслеживает уровень успешности атак на уровне вывода, будучи существенно быстрее оценок, основанных на судьях (judge-based evaluations). Эти результаты указывают на то, что согласование с отказом предоставляет компактный и эффективный сигнал для оценки безопасности белого ящика.