Evaluation & benchmarks — korshunov.ai

Evaluation & benchmarks Страница 1 / 44

Бенчмарк Argus оценивает стабильность количественной оценки неопределённости для моделей «зрение-язык» и наборов данных GUI Grounding

Авторы представляют Argus, бенчмарк, предназначенный для оценки постхоковой количественной оценки неопределённости для агентов компьютерного использования, которые преобразуют предсказания моделей «зрение-язык» в исполняемые действия GUI. Исследование оценивает 28 методов с открытым исходным кодом на четырёх агентах VLM и четырёх наборах данных, а также восемь закрытых коммерческих методов от трёх поставщиков, где внутренние состояния моделей недоступны. Ключевые выводы выявляют селективную стабильность переноса: рейтинги неопределённости остаются согласованными для фиксированной модели в разных наборах данных, но значительно ухудшаются при переходе между различными классами моделей или наблюдаемыми интерфейсами. Среди методов с открытым исходным кодом техники оценки скрытых состояний и плотности продемонстрировали наивысшую стабильность, тогда как в определённых режимах предпочтительными оказались оценки на основе сэмплирования или вербализованной самооценки. Перенос внутри-модельных рейтингов оказался сильным со значениями ранговой корреляции Спирмена до 0,969, тогда как межуровневый перенос к закрытым коммерческим поставщикам в среднем составил лишь +0,08. Исследование также показывает, что конформные области кликов уменьшают радиусы на 40–60 процентов после калибровки, но страдают от снижения покрытия при несовпадении интерфейсов. Для поддержки выбора с учётом режима авторы публикуют записи по каждому элементу, разделения для калибровки, оценки UQ и скрипты анализа.

arxiv arXiv cs.CL · 16 ч назад

Как большие языковые модели формируют репутацию брендов в разных языках и рынках

В данном исследовании анализируются источники цитирования, используемые большими языковыми моделями при ответах на вопросы о брендах, с акцентом на лежащие в основе веб-ссылки, а не только на сгенерированный текст. Исследователи объединили три набора данных Rankfor.AI для изучения 167 551 URL-привязанной цитаты, относящейся к 128 брендам в 12 домашних рынках и на 13 языках. Анализ показывает, что ИИ опирается на ответы о брендах преимущественно на сторонние источники: 85,7% ссылок ведут на сайты, не принадлежащие бренду, по сравнению лишь с 14,3% для доменов, находящихся в собственности бренда. База источников сильно сконцентрирована и подчиняется закону Ципфа: 80% цитат происходят примерно от 18% доменов. Wikipedia становится доминирующим ссылочным ресурсом, являясь самым цитируемым доменом в 11 из 12 изученных языков. Единственным исключением является литовский язык, где деловая газета vz.lt немного опережает Wikipedia с долей 4,38%. Кроме того, состав источников демонстрирует вариации, специфичные для рынка: например, YouTube является самым цитируемым доменом для польских национальных брендов, а HR-порталы предоставляют больше ссылок, чем польская версия Wikipedia.

arxiv arXiv cs.CL · 16 ч назад

ToolBench-X: Оценка агентов, использующих инструменты, в ненадежных средах

Авторы представляют ToolBench-X, новый бенчмарк, предназначенный для оценки агентов на основе больших языковых моделей в условиях восстанавливаемой ненадежности инструментальной среды. В отличие от существующих бенчмарков, предполагающих чистые и стабильные среды, данная фреймворк внедряет пять структурированных типов опасностей: Specification Drift (дрейф спецификации), Invocation Error (ошибка вызова), Execution Failure (сбой выполнения), Output Drift (дрейф вывода) и Cross-source Conflict (конфликт между источниками). Набор данных содержит исполняемые многошаговые задачи в различных доменах с детерминированными инструментами и каноническими окончательными ответами для автоматической оценки. Ключевым аспектом является то, что каждый внедренный экземпляр остается решаемым через корректные пути восстановления, такие как повторная попытка, использование резервного варианта или проверка. Эксперименты выявляют существенный разрыв в надежности: агенты, демонстрирующие хорошие результаты при работе с надежными инструментами, часто терпят неудачу под воздействием этих опасностей. Дополнительный анализ показывает, что сбои обусловлены ограниченной способностью к диагностике опасностей и неэффективным восстановлением, а не объемом использования инструментов или вычислительным бюджетом на инференс. Целевые подсказки для восстановления успешно позволяют завершить многие упавшие задачи, тогда как масштабирование во время тестирования дает более скромные улучшения. Эти результаты указыва

arxiv arXiv cs.LG · 17 ч назад

SAFER: Адаптивное ансамблирование, управляемое надёжностью, для устойчивой адаптации во время тестирования

Авторы решают проблему хрупкости адаптации во время тестирования (TTA) в условиях потоков, загрязнённых состязательными воздействиями, предлагая SAFER — фреймворк для устойчивой TTA, не требующий обучения. SAFER действует как обёртка для аугментации, заменяя предсказания по одному представлению данных на агрегированный предиктор, управляемый надёжностью, для стабилизации онлайн-обновлений. Для каждого тестового образца метод генерирует стохастические аугментации и агрегирует их выходные данные с помощью корреляционно-взвешенного пулинга в сочетании с обнаружением выбросов. Также предлагается расширение с адаптивным смешиванием, которое корректирует веса между исходными и аугментированными входными данными на основе сигналов несогласованности признаков, чтобы сохранять качество работы на чистых данных. Исследователи оценили SAFER на наборах данных PACS, VLCS и OfficeHome в условиях атак PGD при различных уровнях интенсивности. Результаты показывают, что SAFER повышает устойчивость методов TTA к состязательным атакам, сохраняя конкурентоспособную точность на чистых данных.

arxiv arXiv cs.LG · 17 ч назад

ORBIT: Обучение без дообучения для многоатрибутивного поведенческого управления посредством ортогонального вращения подпространства

Авторы представляют ORBIT — метод, не требующий дообучения, для одновременного контроля нескольких поведенческих атрибутов в больших языковых моделях. Существующие техники активационного управления (activation steering) сталкиваются с трудностями при многоатрибутивном контроле из-за дисбаланса норм и направленной отмены при использовании наивного векторного суммирования. ORBIT решает эту проблему, конструируя совместное подпространство из плоскостей управления для каждого атрибута с помощью сингулярного разложения (SVD). Затем в этом подпространстве применяется единственное сохраняющее норму вращение к объединённому целевому направлению. Метод включает адаптивное посимвольное (per-token) гейтирование для выявления необходимых коррекций на каждой позиции и необязательное аддитивное усиление для слабых проекций. Для оценки подхода авторы представляют TraitFactory — бенчмарк, ориентированный на поведенческие тенденции, а не на поверхностный стиль. Эксперименты на моделях Llama-3.2-3B, Qwen-2.5-7B и Llama-3.1-8B демонстрируют, что ORBIT обеспечивает более сильное и сбалансированное управление по сравнению с базовыми методами, сохраняя при этом связность вывода.

arxiv arXiv cs.LG · 17 ч назад

Оценка физической согласованности в генерации видео на основе мировых моделей без опорных данных

Авторы предлагают методы оценки физической согласованности генерируемых видео без использования опорных данных, объединяющие оценку относительной и абсолютной точности. Этот подход устраняет пробел в оценке физической достоверности, который часто мешает инструментам генерации видео, таким как WorldGym или WorldEval, точно воспроизводить реальные показатели успешности выполнения задач для моделей VLA. В отличие от существующих методов, требующих дорогостоящего человеческого голосования или недоступных эталонных данных, новая архитектура использует DROID-SLAM и SEA-RAFT для количественной оценки несоответствий. Основываясь на WorldScore, оценка относительной согласованности позволяет фильтровать видео и повышать показатели успешности выполнения задач более чем на 8%. Кроме того, абсолютная оценка обеспечивает пространственно-временную локализацию, позволяющую визуализировать, когда и где в сгенерированном контенте возникают физические артефакты.

arxiv arXiv cs.LG · 17 ч назад

Kiwano: открытая библиотека PyTorch для исследований в области верификации говорящих

Исследователи представили Kiwano — открытую библиотеку, предназначенную для развития исследований и оценки в области верификации говорящих. Построенная на базе PyTorch, эта легковесная, но расширяемая фреймворк предоставляет стандартизированные рецепты обучения, предварительно обученные модели и интеграцию широко используемых архитектур. Проект делает акцент на воспроизводимости результатов за счет предоставления прозрачных конвейеров обучения, унифицированных протоколов оценки и готовых базовых реализаций (baselines) для нескольких корпусов данных. Помимо стандартных возможностей обучения и вывода, Kiwano включает специализированные инструменты для бенчмаркинга, отслеживания экспериментов и быстрого прототипирования новых архитектур. Для поощрения внедрения в сообществе библиотека распространяется под лицензией Apache 2.0 и сопровождается всесторонней документацией и воспроизводимыми экспериментами. Снижая порог входа и стандартизируя практики оценки, Kiwano стремится стать ценным ресурсом как для академических исследований, так и для прикладной разработки. Проект доступен в открытом доступе на GitHub по адресу https://github.com/kiwano-toolkit/kiwano/.

arxiv arXiv cs.LG · 18 ч назад

VRA-FedSGD: Снижение дисперсии в федеративном обучении для тяжёлых хвостов шума

Авторы предлагают VRA-FedSGD — алгоритм на основе снижения дисперсии, разработанный для федеративного обучения в средах с градиентным и коммуникационным шумом с тяжёлыми хвостами. Этот подход решает проблемы, характерные для крупномасштабного машинного обучения в беспроводных сетях и развертываниях Интернета вещей (IoT). Метод использует снижение дисперсии на основе импульса в сочетании с нелинейным отображением для смягчения градиентного шума с тяжёлыми хвостами. Он также применяет механизм агрегации со сниженной дисперсией для подавления коммуникационного шума с тяжёлыми хвостами. Для невыпуклых целевых функций VRA-FedSGD достигает скорости сходимости по среднему значению O(K^(-(p-1)/(2p-1))), где p — индекс хвоста. В смысле почти наверное достигается скорость Õ(K^(-(1-1/(p-ε))) для сильно выпуклых целевых функций, где ε — произвольно малая константа. Симуляционные эксперименты на логистической регрессии с реальными данными подтверждают эффективность алгоритма.

media Hugging Face Forums · 20 ч назад

Вопрос сообщества о методах бенчмаркинга моделей

Пользователь форума обсуждений Hugging Face задал вопрос, ища совета по поводу того, как проводить бенчмаркинг моделей машинного обучения. Запрос был инициирован человеком, который новичок в области дообучения (fine-tuning) и хочет оценить свои модели после завершения работы. В посте явно спрашивается о устоявшихся методах или стратегиях, которые использует сообщество для этой цели. Это подчеркивает общую потребность среди практиков в понимании стандартных практик оценки при разработке моделей. В текущей ветке обсуждения содержится только один пост от одного участника. В видимом содержании источника не было предоставлено никаких конкретных бенчмарков, метрик или технических решений.

arxiv arXiv cs.LG · 22 ч назад

Дифференцируемая атари ВЦС для объяснимой ИИ

Представлена полностью дифференцируемая эмуляция атари 2600 ВЦС, воспроизводящая все 64 игры ALE с точностью до бита в памяти и выводе экрана. Система обеспечивает объяснимую ИИ на основе градиентов, предоставляя сложную, полностью известную истину, с реализацией на Julia и JAX, проверенной в отношении отсылки эмулятора и поддерживающей высокую производительность обучения на GPU.

arxiv arXiv cs.LG · 22 ч назад

AdaR: адаптивный рекуррентный передача сообщений для графовых вычислений на этапе тестирования

AdaR обеспечивает гибкие вычисления на этапе тестирования для графов без изменения параметров, используя адаптивную рекурсию. Оно выявляет зависимость шага как необходимое и достаточное условие сходимости и включает нормализованные данные шага и отношения к целевым представлениям в рекуррентные обновления, направляя их по сигналам надзора на основе градиентов. Эмпирические результаты показывают, что AdaR превосходит сильные базовые модели как в индуктивных, так и в трансдуктивных настройках обучения графов.

arxiv arXiv cs.LG · 23 ч назад

Недостатки приложения с интеграцией LLM показывают пробелы в тестировании

Помощник по поиску аренды с функциями LLM и поддержкой нескольких рынков сталкивался с постоянными дефектами пользователей, несмотря на 1553 прошедших автоматизированных тестов. Анализ 252 коммитов по устранению багов показал, что 44% исправлений происходили в четырех незамеченных местах: в среде браузера, в неподходящих рынках, в цепочках конечных процессов и на уровне всей системы. Исправление без защиты на месте привело к тому, что дефект был выпущен дважды, что подчеркивает необходимость целенаправленного тестирования на этих границах.

arxiv arXiv cs.LG · 23 ч назад

Эффект ножниц: расширение разнообразия ухудшает устойчивость переноса

Разнообразие входных данных, распространённая практика в атаках на перенос, повышает успех на стандартных переносчиках, но снижает его на устойчивых. Этот зависимый от режима эффект, называемый эффектом ножниц, обусловлен геометрией градиентов, при этом операции масштабирования ухудшают сопоставимость в устойчивых моделях. Без обучения правило (CG-DI) корректирует разнообразие на основе локальной согласованности градиентов, чтобы сохранить успех атаки на разных типах переносчиков.

arxiv arXiv cs.LG · 23 ч назад

HERTA: Автоматизированный тест на уязвимости в фреймворках полной гомоморфной криптографии

HERTA — первый автоматизированный инструмент для тестирования фреймворков полной гомоморфной криптографии. Он использует метаморфный тест с новыми отношениями, выведенными из семантики FHE, для обнаружения глубоких логических ошибок, которые могут незаметно испортить зашифрованные вычисления. Оценка на трех промышленных фреймворках выявила 21 ранее неизвестную ошибку, несколько из которых были подтверждены и исправлены разработчиками, что имеет значительные последствия для безопасности и целостности сервиса.

arxiv arXiv cs.LG · 23 ч назад

Концептуально-ограниченное обучение промптов для адаптации CLIP в условиях малообучающих данных

CCPL представляет легкую архитектуру, которая фиксирует промпты классов к замороженным концептуальным прототипам, улучшая адаптацию CLIP в условиях малообучающих данных. Оно достигает лучшего показателя базовой-новой производительности на DTD и EuroSAT по сравнению с CoOp, с постоянными улучшениями за счёт регуляризации в пространстве текста, хотя результаты варьируются в зависимости от датасета и протокола.

arxiv arXiv cs.LG · 1 д назад

Малые языковые модели превосходят передовые крупные языковые модели по извлечению отношений

Финетурированный модель Qwen2.5 с 0,5 миллиарда параметров достигает 0,83 микроФ1 в извлечении отношений в общей области, превосходя нулевую версию GPT-5.4 и Claude Sonnet 4.6. На литературных тестах она достигает 0,92 на датасете Биографический, превосходя GPT-5.4 и превосходя передовые модели по точности, демонстрируя, что адаптированные к задаче малые модели могут обеспечивать высокую производительность при минимальных затратах на оборудование и приватность.

arxiv arXiv cs.AI · 1 д назад

BabelJudge: Оценка надежности LLM-как-судьи в разных языках и траекториях агента

BabelJudge представляет открытую платформу для измерения четырех ключевых форм предвзятости в LLM-судьях в различных языках и траекториях агентов. Платформа выявляет значительное падение надежности от хинди до саванги — с 0,714 до 0,550 — что подчеркивает деградацию между языками, недоступную по прямой точности. Платформа позволяет проводить оценку с учетом предвзятости без использования человеческих меток, используя контролируемые искажения для создания известных эталонных меток, и расширяется на агентные рабочие процессы с новыми метриками по точности инструментов и обнаружению выдумки.

arxiv arXiv cs.AI · 1 д назад

RoboMME-Interference: Оценка памяти робота при наличии помех

RoboMME-Interference представляет кросс-сессионный бенчмарк для оценки памяти робота при наличии помех. В него добавляются несвязанные сессии к предыдущим демонстрациям, что показывает, что варианты перцептивной памяти значительно деградируют при увеличении раздражителей, подчеркивая недостаточную устойчивость существующих систем к помехам и необходимость долгосрочной памяти.

arxiv arXiv cs.AI · 1 д назад

Обратное моделирование постериорного отбора для регрессии в пространстве функций и обратных задач

FAPS — первый фреймворк постериорного отбора в пространстве функций, объединяющий регрессию на стохастических процессах и обратные задачи дифференциальных уравнений. Он использует предобученные априорные распределения на основе потоков и коррекцию Ланжевена с предусловием ковариационной матрицы низкого ранга для обеспечения эффективного и точного постериорного вывода на основе редких и шумных данных с согласованным квантованием неопределённости.

media r/LocalLLaMA · 1 д назад

Кто-нибудь еще замечал, что выводы vLLM хуже, чем в llama.cpp?

Пользователь сообщает, что замечает менее надежные выводы от vLLM по сравнению с llama.cpp, включая ошибки форматирования, потерю контекста и снижение качества кода. Он спрашивает, откуда могут исходить такие различия — от квантования, шаблонов чата, проблем с парсером или ошибок настройки, и ищет подтверждение, что другие наблюдали подобные разрывы в качестве между инференс-бэкендами.