Evaluation & benchmarks — korshunov.ai

Evaluation & benchmarks Страница 1 / 45

Пользователи сообщают о высокой производительности модели siq1 на Kebab Bench

Пользователь Reddit поделился результатами, показывающими, что его модель, названная siq1, демонстрирует отличные результаты на оценке Kebab Bench. В посте подчеркиваются возможности модели с помощью демонстрации, размещенной в Hugging Face Spaces. В частности, пользователь ссылается на пространство под названием 'hermes-agent-zerogpu', созданное AlexWortega, как доказательство этой производительности. Этот пост был опубликован пользователем Reddit /u/Mysterious_Hearing14 в сообществе r/LocalLLaMA. Оригинальный пост содержит ссылку на интерфейс Hugging Face, где можно протестировать модель. Кроме того, для дополнительной проверки доступна видеодемонстрация по ссылке V.redd.it.

arxiv arXiv cs.LG · 10 ч назад

Нуль-калиброванный конформный отбор через оценки принадлежности к цели

В статье представлен метод нуль-калиброванного конформного отбора (NCCS), который использует оценки вероятности принадлежности к цели для выявления кандидатов в тесте внутри целевой области при контроле уровня ложных открытий. Авторы утверждают, что эти оценки принадлежности обеспечивают более естественный ранжирование для задач отбора по сравнению с традиционными показателями несогласованности, ориентированными на прогнозирование, особенно для сложных целей. Это различие имеет критическое значение для целей со значениями в виде интервалов, управляемых дисперсией, многомодальных или многоусловных, где традиционные показатели могут не соответствовать мощности отбора. NCCS ранжирует тестовые оценки по подтвержденным примерам калибровки с нулевым результатом (не-цель), чтобы получить валидные для конечной выборки нулевые p-значения при условии нулевой обменности. Эти p-значения могут быть объединены с процедурой Бенjamини-Екутиели при произвольной зависимости или с процедурой Бенjamини-Хохберга при стандартных условиях положительной зависимости. Эксперименты демонстрируют, что оценки принадлежности совпадают с традиционными показателями на монотонных по среднему значениях целях, но существенно улучшают производительность на целях, управляемых дисперсией. В режимах редких целей NCCS жертвует мощностью ради нулевой валидности для конечной выборки, решая проблемы, при которых прямое пороговое значение эмпирического FDP (False Discovery Proportion) может быть излишне оптимистичным.

arxiv arXiv cs.LG · 10 ч назад

RoboMME-Interference: тестирование памяти роботов в условиях отвлекающих факторов

Введение RoboMME-Interference решает потребность в оценке памяти роботов в реалистичных сценариях с длинным контекстом, где системы должны вспоминать информацию из нескольких предыдущих сеансов. Этот новый кросс-сеансный бенчмарк построен на основе существующей платформы RoboMME для измерения производительности, когда роботы сталкиваются с отвлекающими факторами от нерелевантного предыдущего опыта. Для каждого эпизода запроса бенчмарк формирует историю сеанса, состоящую из релевантных демонстраций, за которыми следует контролируемое количество нерелевантных сеансов, предоставляемых в качестве памяти моделям Vision-Language-Action (VLA). Исследователи протестировали выпущенные модификации модели π_0.5 с дополненной памятью без изменений, чтобы оценить их устойчивость в этих условиях. Результаты показывают, что хотя варианты с перцептивной памятью улучшают показатели успеха при отсутствии отвлекающих факторов, их точность стабильно и сильно снижается по мере накопления нерелевантных сеансов. Эти выводы подчеркивают критический недостаток текущих систем в отношении памяти длинного контекста и устойчивости к интерференции. Страница проекта, видео, код и данные для этого бенчмарка доступны по адресу https://robotmemorybench.com.

arxiv arXiv cs.LG · 10 ч назад

Послойная аннигиляция потока для сэмплирования апостериорного распределения в регрессии в пространстве функций и обратных задачах

Авторы представляют Flow Annealing Posterior Sampling (FAPS), новую рамку, объединяющую регрессию стохастических процессов с обратными задачами УЧП в пространстве функций. Опираясь на предварительно обученные априорные распределения для flow-matching в пространстве функций, FAPS обеспечивает апостериорный вывод, направляемый правдоподобием, на основе разреженных и зашумленных наблюдений. Метод поддерживает различные дискретизации точек запроса и избегает необходимости явной оценки плотности априорного распределения во время сэмплирования. Он использует механизм коррекции Ланжевена, который применяет предобусловливатель низкого ранга для использования доминирующих корреляций в пространстве функций между различными дискретизациями. Тестирование на гауссовских и не-гауссовских стохастических процессах показывает, что FAPS генерирует согласованные апостериорные выборки с точной количественной оценкой неопределенности. Подход значительно превосходит существующие базовые методы функциональной регрессии в этих стандартных задачах. Кроме того, он демонстрирует конкурентоспособную или превосходную производительность в зашумленных обратных задачах УЧП по сравнению с диффузионными сэмплерами при одновременном снижении затрат на сэмплирование во время тестирования.

media r/LocalLLaMA · 11 ч назад

Пользователи сообщают о снижении качества и эффективности моделей MTP в Qwen 3.6 и Gemma 4

Пользователь, тестирующий самохостинговые модели Qwen 3.6 27B и Gemma 4 на четырех видеокартах RTX 5070 Ti, сообщает, что многозадачное предсказание токенов (MTP) ухудшает качество вывода по сравнению с вариантами без MTP. При задачах рецензирования кода модель без MTP выдавала более детальные результаты с предложениями по исправлению, потребляя меньше токенов, чем её аналог с MTP. Метрики производительности показали, что конфигурация без MTP достигала примерно 2000 обрабатываемых токенов промпта в секунду и скорости генерации 50-60 токенов в секунду. Напротив, конфигурация MTP обеспечивала более высокую скорость генерации 100-120 tg/s, но более низкую скорость обработки промптов около 1300 pp/s. Несмотря на более высокую пропускную способность генерации, реальное время выполнения задач агентами было ускорено с помощью MTP всего на 20% из-за увеличенного потребления контекста. Пользователь использовал llama.cpp со специфичными GGUF-файлами от Unsloth и отметил аналогичный негативный опыт при тестировании Gemma 4.

arxiv arXiv cs.CL · 11 ч назад

HIPE-2026: Извлечение отношений «персона — место» из многоязычных исторических текстов

Кампания HIPE-2026 решает задачу извлечения отношений между персонами и местами из зашумленных многоязычных исторических документов. В отличие от предыдущих выпусков, ориентированных на распознавание именованных сущностей, эта третья итерация нацелена на отношения, привязанные ко времени и помеченные как 'at' (в) и 'isAt' (находится в). В оценке участвовали 17 команд, обрабатывавших данные на французском, немецком и английском языках в рамках трех различных наборов данных. Эти наборы данных включали тексты газет XIX и XX веков, а также неожиданный доменный набор ранних современных французских литературных произведений. Важной особенностью кампании стала трехуровневая система оценки, измеряющая предсказательную точность, вычислительную эффективность и обобщающую способность в разных доменах. Результаты более 40 отправленных запусков продемонстрировали широкое разнообразие стратегий — от больших языковых моделей до легких классификаторов. Полученные выводы подчеркивают присущие компромиссы между точностью, эффективностью и устойчивостью при извлечении отношений в масштабных исторических текстах.

arxiv arXiv cs.CL · 12 ч назад

SpeechEQ: Оценка эмоционального интеллекта в социально-ориентированных голосовых диалоговых моделях

Авторы представляют SpeechEQ — комплексную рамку для оценки социолингвистического мышления моделей обработки речи и языка. Существующие методы оценки часто упускают из виду сложное кросс-модальное рассуждение, необходимое для активного диалога, полагаясь на изолированный текст или пассивное акустическое восприятие. Фреймворк включает валидированный набор данных из 2265 диалогов по 15 подшкалам эмоционального интеллекта (EQ), основанным на теории EQ-i 2.0. Он также содержит протокол многошаговой оценки, измеряемый с помощью предложенного показателя Spoken EQ, вдохновленного оценками человеческого EQ. Эксперименты выявляют ограничения в том, как системы распознавания эмоций по речи и сквозные (end-to-end) модели понимают паралингвистические признаки через речь. Хотя сквозные архитектуры превосходят каскадные системы, современные мультимодальные модели остаются ограниченными рядом специфических проблем. Эти барьеры включают модальное укорочение, зависящее от текста, ловушку безопасности, индуцированную выравниванием, и контекстную амнезию.

arxiv arXiv cs.CL · 12 ч назад

Исследование выявило: читатели предпочитают человеческие литературные переводы машинным, несмотря на адекватное качество последних

Недавнее исследование изучило предпочтения читателей относительно ИИ- и человеческих переводов литературных произведений, отметив, что, хотя автоматические метрики часто отдают предпочтение машинному выводу, они не способны уловить иммерсивные и литературные эффекты. Исследователи попросили 15 заядлых читателей сравнить человеческие переводы с переводами, сгенерированными агентной конвейерной системой LLM (agentic LLM pipeline), для 15 романов на французском, польском и японском языках. Оценка проводилась по отрывкам объемом около 8 тысяч слов как при иммерсивном чтении целых текстов, так и при детальном чтении выровненных пар фрагментов. Результаты показали, что, хотя читатели считали машинные переводы адекватными, они значительно предпочли человеческие версии благодаря их ясности и легкости погружения в текст. Примечательно, что участники не могли надежно различать два типа переводов и склонялись к той версии, которую считали созданной человеком. В поддержку будущих исследований авторы опубликовали LAIT — ориентированный на читателей датасет, содержащий 1K комментариев, 2K оценок и 7,2K аннотаций на уровне фрагментов.

arxiv arXiv cs.CL · 13 ч назад

Оценка устойчивости к визуальным возмущениям OCR-рассуждений в моделях «зрение-язык»

Авторы представляют OCR-Robust, бенчмарк, предназначенный для оценки устойчивости моделей «зрение-язык» при выполнении задач OCR-рассуждений в условиях визуальных возмущений. Датасет состоит из 812 примеров, разделенных на два подмножества: OCR1.0, охватывающее документы и рукописный текст, и OCR2.0, фокусирующееся на графиках и таблицах. Пилотное исследование выявило пять репрезентативных типов возмущений на трех уровнях серьезности для обеспечения эффективной оценки. В исследовании протестированы 18 моделей, включая проприетарные системы и открытые VLM (vision-language models), с использованием таких метрик, как Relative Corruption Retention и Worst-Case Retention. Результаты показывают, что более высокая точность на чистых данных не обязательно коррелирует с большей устойчивостью к визуальной деградации. Кроме того, анализ выявляет, что графики и таблицы существенно более хрупки по сравнению с входными данными, похожими на документы, при воздействии этих возмущений.

arxiv arXiv cs.CL · 13 ч назад

Слепота к лексикону ключевых слов искажает измерение риторической позиции

Исследование, проанализировавшее 85 интервью с четырьмя публичными интеллектуалами, показывает, что оценка на основе ключевых слов может создавать статистические артефакты в отношении риторической позиции. Первоначальный анализ выявил устойчивую закономерность совместного появления негативной аффективности и категоричной уверенности с высокими коэффициентами корреляции, варьирующимися от r = 0,72 до 0,93. Однако замена этого метода на семантическую классификацию LLM в режиме zero-shot для всего диааризированного корпуса из 32 625 предложений значительно снизила эти корреляции. Например, корреляция Далио упала с 0,851 до 0,206, тогда как у других спикеров наблюдалась отрицательная или нулевая связь между негативностью и уверенностью. Напротив, анализ LLM выявил сильную связь между негативным сентиментом и языком оговорок (hedging), что соответствует обычным ожиданиям относительно пессимистичного дискурса. Расхождение обусловлено тремя структурными недостатками лексиконов ключевых слов: синтаксической слепотой, слепотой к полисемии и отсутствием категорий. Эти недостатки могут инвертировать семантическое значение, например, оценивая фразу 'никогда абсолютно полностью уверен' как высокую уверенность. Авторы утверждают, что подсчет ключевых слов измеряет тенденции к лексическому совместному появлению, а не эпистемическую уверенность, что представляет собой категориальную ошибку.

arxiv arXiv cs.CL · 13 ч назад

Аудит чувствительности к порядку в мультимодальных больших языковых моделях

В исследовании представлен Facet-Probe, аудит по пяти граням 18 передовых и моделей с открытым весом (open-weight) для оценки чувствительности к порядку. Стандартные бенчмарки часто упускают из виду, приводит ли перестановка доказательств к изменению ответов, что является свойством надежности, подчеркиваемым в новых руководящих принципах оценки ИИ. Используя байесовскую модель ответа на элемент (item-response), исследователи отделили шум порядка от смещения по каждой грани и оценили нижние границы стохастичности декодера с помощью контрольных групп с неизменным порядком. Аудит показал, что ни одна из 18 моделей не является инвариантной к порядку, при этом средние для панели доли переворота ответов варьируются от 24% до 50% в зависимости от граней. Даже лучшая по производительности модель меняла ответ в 13,4% испытаний, что указывает на то, что более высокая способность не устраняет эту уязвимость. Тесты смягчения с использованием изменений промптов без дообучения оказались условно зависящими от модальности и не переносились между задачами текстового и визуального рассуждения. Эти выводы свидетельствуют о том, что исправления на уровне промпта недостаточны для общей устойчивости к порядку, что стимулирует разработку архитектурных решений. Авторы предлагают долю переворота ответов при перестановке порядка в качестве стандартной оси отчетности для будущих оценок мультимодальных больших языковых моделей (MLLM).

arxiv arXiv cs.CL · 13 ч назад

Голосовой ИИ в реальном времени слышит, но не слушает

Исследование оценивает четыре ведущих производственных системы голосового взаимодействия в реальном времени: GPT Realtime 2 от OpenAI, Gemini 3.1 Flash Live от Google, а также Qwen3.5 Omni Plus и Omni Flash от Alibaba. Исследование сосредоточено на задачах, где как слова, так и вокальное исполнение несут значимую информацию в трех важных сценариях. Все четыре системы реагируют на буквальные слова, а не на голос, что приводит к ошибкам, таким как завершение разговоров с плачущими пользователями, которые настаивают, что всё в порядке, или одобрению денежных переводов, совершённых испуганным голосом. Удивительно, но этот разрыв часто не является ошибкой восприятия: три из четырёх систем могут надёжно распознавать дистресс, страх или сарказм, если их спросить напрямую. Несмотря на это осознание, модели игнорируют эти эмоциональные сигналы при принятии решений, демонстрируя то, что авторы называют «пробелом в эмоциональном интеллекте». В исследовании также отмечается, что системы оценивают акцент и возраст на основе языковых предубеждений, а не акустических свойств. Прямое указание системам обращать внимание на вокальное исполнение улучшает производительность лишь частично и непоследовательно. Эти выводы свидетельствуют о том, что текущий голосовой ИИ в реальном времени ведёт себя так, будто речь сводится к транскрипту, что требует осторожности в ситуациях, где тон имеет критическое значение.

media r/LocalLLaMA · 14 ч назад

Запрос на Reddit о запуске больших моделей с 4–8 видеокартами RTX 6000 PRO

Пользователь Reddit ищет отзывы сообщества относительно производительности больших языковых моделей на системах, оснащённых четырьмя или восемью графическими процессорами NVIDIA RTX 6000 PRO. Запрос ориентирован в первую очередь на пользователей, располагающих от 384 ГБ до 768 ГБ видеопамяти для запуска таких моделей, как GLM 5.2, Kimi 2.7 и DeepSeek V4 Pro. Автор отмечает, что хотя эти модели технически могут работать при 4-битном квантовании, они могут не помещаться в доступный объём памяти при использовании 8-битной точности. Он ссылается на репозиторий с бенчмарками, но указывает, что в нём отсутствуют данные по самым последним релизам моделей. Один из ключевых вопросов касается того, насколько существенна деградация производительности при переходе от 4-битного к 8-битному квантованию и может ли это повлиять на выполнение агентных задач или задач программирования. Пользователь также спрашивает, какие бэкенды для инференса, такие как vLLM или SGLang, в настоящее время используются другими людьми при данной конфигурации оборудования.

arxiv arXiv cs.CL · 14 ч назад

Измерение сложности исследований в NLP: обращенная U-образная зависимость от академического влияния

В данном исследовании предлагается комплексная система оценки для измерения сложности академических исследований, рассматривающая обработку естественного языка (NLP) в качестве примера. Авторы извлекают внутренние и внешние признаки из статей, включая сотрудничество, содержание и ссылки, для вычисления нескольких индикаторов сложности. Эти индикаторы взвешиваются с использованием метода энтропийных весов и суммируются для получения итогового показателя сложности исследования. Академическое влияние количественно оценивается по частоте цитирования, а экспертные оценки подтверждают надежность предложенного подхода измерения. Эмпирические результаты показывают, что количество страниц, количество ссылок и участие институтов высокого уровня значительно коррелируют с академическим влиянием. Ключевой вывод анализа заключается в том, что между сложностью исследования и его влиянием существует обращенная U-образная зависимость. Это указывает на то, что исследования умеренной сложности, как правило, достигают наивысшего уровня академического влияния.

arxiv arXiv cs.CL · 15 ч назад

Память определяет результат: оценка того, как различные роли памяти формируют диалоговые агенты

Предыдущие исследования механизмов памяти в RAG-системах для диалога в основном фокусировались на методах хранения и извлечения. В данном исследовании изучается влияние памяти с различными функциональными ролями на качество ответов в разных контекстах. Авторы представляют детализованную таксономию диалоговой памяти для классификации извлеченных элементов по конкретным типам ролей. Они также разрабатывают ориентированную на пользователя систему оценки, имитирующую перспективы пользователей, чтобы устранить ограничения оценочных методов, основанных на эталонных ответах. Сравнительные эксперименты проводились на наборах данных с длинным контекстом с использованием передовых больших языковых моделей для анализа этих эффектов. Результаты показывают, что уточнение памяти повышает фактическую точность и осознание ограничений, что приводит к более корректным и персонализированным ответам. Напротив, было обнаружено, что нерелевантная память снижает релевантность темы и ухудшает способность учитывать ограничения. Эти выводы демонстрируют, как различные типы памяти могут быть использованы для улучшения персонализации в диалоговых агентах.

arxiv arXiv cs.CL · 15 ч назад

Sarashina2.2-TTS: Решение проблемы полифонии кандзи в японском синтезе речи посредством масштабирования данных и целевого синтеза данных

Sarashina2.2-TTS — это система преобразования текста в речь (TTS) на основе большой языковой модели (LLM), ориентированная на японский язык, предназначенная для решения лингвистической проблемы контекстно-зависимой полифонии кандзи. Модель масштабирует обучающие данные до объема примерно 361 тыс. часов, используя сбалансированное сочетание корпусов японской и английской речи. Для специфической обработки неоднозначности чтения авторы реализовали целевой конвейер аугментации данных, охватывающий все 2136 иероглифов Joyo регулярного использования. Наряду с выпуском модели в статье представлен бенчмарк Joyo Kanji Yomi Benchmark, включающий 4378 различных чтений для этих символов. Авторы также предлагают метрику Kana-CER, которая оценивает правильность произношения путем сравнения синтезированной речи с эталонными чтениями в пространстве кана. Экспериментальные результаты показывают, что такая целевая аугментация значительно улучшает точность чтения и достигает состояния переднего края (state-of-the-art) на уровне кандзи. Система демонстрирует результаты, сопоставимые с лучшими базовыми моделями, по общему уровню произношения на уровне предложений, обеспечивая при этом наибольшее сходство голоса в сценариях zero-shot синтеза. Кроме того, кросс-лингвистические оценки подтверждают, что сбалансированный подход к обучению обеспечивает стабильное японское произношение независимо от языка используемого промпта.

arxiv arXiv cs.CL · 15 ч назад

Обзор стратегий обнаружения и смягчения токсичности для многоязычных языковых моделей

В данном обобщающем исследовании синтезируются материалы по обнаружению токсичности и стратегиям детоксикации, специально разработанным для многоязычных больших языковых моделей. В нем систематизируются модели угроз, использующие лингвистические вариации, такие как код-свитчинг (переключение кодов), орфографические различия и трансляционные пивоты, для обхода механизмов безопасности. Авторы структурируют существующие работы по формулировкам задач, таким как переписывание токсичного текста в нейтральный и классификация, а также по различным подходам обнаружения, включая кроссоязычные энкодеры и детекторы на основе больших языковых моделей. Стратегии смягчения подробно рассматриваются в контексте фильтрации данных, контролируемой тонкой настройки, управления процессом декодирования и внедрения многоязычных систем контроля (guardrails). Анализ подчеркивает сохраняющиеся проблемы в области, в частности неравномерное покрытие языков и фрагментированные протоколы оценки. Кроме того, обсуждается сложность культурно обусловленных определений вреда и риск того, что усилия по детоксикации могут подавить легитимные диалектные или связанные с идентичностью формы выражения.

arxiv arXiv cs.CL · 15 ч назад

Оценка устойчивости к японским диалектам в речевых и текстовых больших языковых моделях

В данном исследовании изучается диалектная устойчивость больших языковых моделей (LLM) и речевых языковых моделей (SLM) на примере японских диалектов. Несмотря на прогресс в развитии диалоговых систем на базе LLM, диалектные вариации остаются значительной проблемой, особенно при обработке устных входных данных. В работе устойчивость определяется как отношение производительности на диалектных и стандартных входах, что позволяет проводить справедливые сравнения между различными типами моделей. Эксперименты показывают, что устойчивость SLM напрямую коррелирует с устойчивостью их базовых текстовых аналогов LLM. Кроме того, исследование выявляет, что как обучение с использованием диалектных данных, так и тонкая настройка речевого кодировщика способствуют повышению устойчивости SLM. Эти результаты проясняют влияние базовых возможностей LLM на производительность SLM и определяют эффективные стратегии улучшения понимания диалектов.

arxiv arXiv cs.CL · 16 ч назад

Оценка Reclaim показывает, что потеряющая память хуже, чем отсутствие памяти

Исследование демонстрирует, что наличие в памяти языковой модели неверных выводов более вредно, чем полное отсутствие памяти. Когда модели сохраняют устаревшие значения, отбрасывая при этом поддерживающие данные, они выдают уверенные, но ошибочные ответы, тогда как пустая память позволяет воздерживаться от ответов. Это явление, названное хрупкой памятью (brittle memory), наблюдалось в семи моделях, причем направление ошибки никогда не менялось независимо от задачи или disposition. Исследователи предложили оценку Reclaim для измерения исправляемости путем сжатия взаимодействий и проверки того, восстанавливаются ли коррекции до ground truth без использования judge. Результаты показывают, что исправляемость зависит от того, сохраняется ли исходная информация после сжатия, а не от возможностей модели. Политика source-first, которая сохраняет пересчитываемые источники и отбрасывает выводимые заключения, значительно лучше восстанавливает исправляемость по сравнению с контрольными группами, сопоставленными по длине. В циклах связанной памяти ошибки из-за потери источников необратимо искажают последующие шаги, тогда предлагаемое решение поддерживает ограниченные горизонты производительности. Выводы воспроизводятся в трех развернутых системах и реальных диалоговых данных, при этом hand-built oracle достигает идеальной точности.

arxiv arXiv cs.CL · 16 ч назад

Спектр обобщения: хроматографический подход к оценке алгоритмов обучения

Традиционные оценки сводят обучение к единому агрегированному показателю, скрывая то, насколько хорошо знания из одного примера обобщаются на другие. Авторы вводят Спектр обобщения (Generalization Spectrum) — фреймворк оценки, который измеряет обобщение для каждого образца путем отслеживания производительности по вариантам тестов с увеличивающимся расстоянием переноса. Эти варианты варьируются от точного воспроизведения до переноса реализации между языками и переноса контекста при нарративном перефрейминге. Фреймворк реализован на основе соревновательного программирования с использованием конвейера выбора и синтеза, инициированного недавними задачами для снижения риска загрязнения данных. Сравнения канонических парадигм обучения показывают, что обучение с подкреплением (Reinforcement Learning) преобразует запоминание в перенос на близкие задачи эффективнее, чем базовые методы контролируемой тонкой настройки (Supervised Fine-Tuning). Обучение в контексте (in-context learning) демонстрирует сильные, но зависящие от соответствия возможности переноса в данном контексте. Диагностические профили показывают, что локальные улучшения не обязательно расширяют радиус обобщения для всех методов. В частности, абстракции и подсказки в основном повышают локальный перенос, тогда как Контролируемая тонкая настройка с использованием эталонов (Reference SFT) сохраняет более сильный хвост распределения для дальнего переноса по сравнению с RL с подкреплением (RFT). Кроме того, самодистилляция или