Evaluation & benchmarks
arxiv arXiv cs.AI · 8 д назад

ReproRepo: масштабирование аудитов воспроизводимости с помощью Issue GitHub

ReproRepo представляет масштабируемую архитектуру, использующую Issues GitHub для оценки воспроизводимости научных статей в области машинного обучения. Оно показывает, что агенты на основе языковых моделей, такие как Codex с GPT-5.5, выявляют хотя бы один барьер в 90% пар статей и репозиториев без выполнения кода, хотя точная локализация остаётся сложной задачей.

arxiv arXiv cs.AI · 8 д назад

Визуальная проверка обеспечивает управление на этапе инференса и автономное улучшение политики

VERITAS представляет генератор-проверяющий фреймворк, который позволяет роботам улучшать политики в реальном времени без дополнительной тренировки. Визуальный проверяющий оценивает действия на этапе инференса, что позволяет достигать стабильных улучшений за счёт проверенных роллов, которые служат эффективным надзором для улучшения политики в оффлайне. После тренировки с использованием таких проверенных роллов достигается эффективность, сравнимая с показателями экспертов, без вмешательства человека.

arxiv arXiv cs.CL · 8 д назад

Подача системы одновременного перевода речи MLLP-VRAIN на IWSLT 2026

Группа MLLP-VRAIN подает каскадную систему SimulST, использующую модели Parakeet и Qwen 3.5 с адаптивными политиками черного ящика. Для En→De, It, Zh, она использует усиление слов аудиосинтеза и RAG с предварительно переведенными образцами в новом контекстном треке, достигая улучшения на 5,82 XCOMET-XL на MCIF En→De и дополнительного роста на 1,03 за счет интеграции контекста.

arxiv arXiv cs.CL · 8 д назад

Производительность Word2Vec в минимальной лексике Toki Pona

Этуд оценивает способность Word2Vec к выявлению семантических связей в языке Toki Pona, который содержит только 130 слов. Используя 1,4 миллиона предложений, исследование показывает, что неосновные токены не нарушают структуру векторов и, возможно, действительно приближают схожие слова в пространстве векторов. Результаты показывают, что эффективность Word2Vec зависит больше от распределительных паттернов, чем от размера лексико-семантического словаря, даже при экстремальной лексической сокращении.

arxiv arXiv cs.CL · 8 д назад

SpeechDx: Многоцелевой бенчмарк для клинической речевой ИИ

SpeechDx представляет масштабный бенчмарк, включающий 12 датасетов и 27 задач по различным медицинским состояниям. Он оценивает модели по стадиям речевого производства и показывает, что масштабные модели показывают наилучшие результаты, в то время как специализированные модели демонстрируют ограниченную обобщаемость на различных клинических условиях.

arxiv arXiv cs.CL · 8 д назад

Истории, сгенерированные LLM, показывают низкую разнообразие

Большие языковые модели генерируют рассказы, которые более схожи между собой, чем рассказы, написанные людьми. Передовые модели сходятся к общей, универсальной структуре рассказа, не демонстрируя разнообразия, присутствующего в рассказах, написанных людьми. Общие техники, такие как отрицательное подавление и масштабирование температуры, не значительно снижают эту однородность.

arxiv arXiv cs.CL · 8 д назад

Явное против скрытого подсказки в LVLMs для отсылки к коммуникации

Два исследования показывают противоречивые результаты по способности LVLMs координировать эффективные отсылки. Явное подсказывание позволяет моделям достигать эффективной коммуникации, но скрытое подсказывание не вызывает этого поведения, что выявляет фундаментальные различия в человеческой-ИИ коммуникации.

arxiv arXiv cs.CL · 8 д назад

Визуальные данные лгут, согласованность говорит: разъединение пространственной внимательности от надежности в визуально-языковых моделях

Исследование подвергает сомнению предположение о том, что визуальные сигналы внимания отражают надежность в визуально-языковых моделях. Оно показывает почти нулевую корреляцию между пространственной внимательностью и точностью, демонстрируя, что согласованность по всем путям рассуждения является более сильным предиктором истины. Надежность лучше объясняется динамикой генерации и распределения внутренних состояний, а не визуальными паттернами внимания.

arxiv arXiv cs.CL · 8 д назад

NarrativeWorldBench и N-VSSM для длительных аудиодраматических сценариев

NarrativeWorldBench оценивает 21 LLM по девяти метрикам структуры сюжета на горизонтах от 10 до 200 эпизодов, с поддержкой межязыковых вариантов на хинди, тамильском, телугу и маратхи. N-VSSM, скрытая модель мира, использующая Mamba-2, достигает значения F1 по сюжетным точкам не менее 0,84 на всех горизонтах при вычислительной нагрузке в четыре раза ниже, чем у моделей с закрытым фронтом, и превосходит Claude Opus 4.5 по долгосрочной последовательности и управляемости в исследовании профессионального писателя.

arxiv arXiv cs.CL · 8 д назад

Смещение рекомендаций LLM и динамика конкуренции брендов

Известные бренды доминируют в рекомендациях LLM на 100%, когда продукты идентичны, но это преимущество исчезает при наличии лишь +0,1-звездного преимущества. Утверждения, основанные на авторитетном маркетинге, такие как поддельные клинические данные, нарушают это доминирование при избытке смещения на +0,17 баллов рейтинга, при этом модели реагируют по-разному. В много брендовой конкуренции возникает социальная дилемма, при которой совместная оптимизация снижает индивидуальную выгоду с +0,802 до +0,007 и устраняет рекомендации для непринимающих брендов.

arxiv arXiv cs.CL · 8 д назад

PARSE: Защита реальных документов для агентов на основе ЛЛМ

PARSE снижает успешность атаки инъекции промпта с 25,4% до 15,6% на реальных корпоративных документах в пяти профессиональных областях, с статистически значимым улучшением (p=0,014) и полезностью 86,9%. Он превосходит метод перефразирования и использует санитаризацию, учитывающую происхождение, для сохранения фактического содержимого, при этом большинство документов проходят через лёгкий путь.

arxiv arXiv cs.CL · 8 д назад

AIPatient Arena: оценка LLM в клинических рабочих процессах на основе данных ЭРВ

AIPatient Arena оценивает большие языковые модели в полных клинических консультациях с использованием пациентспецифических знаний, основанных на ЭРВ. Он оценивает LLM по восьми клинических компетенциям, выявляя сильную производительность в навыках интервью, этике и ясности объяснений, но устойчивые слабости в обработке неопределённости, охвате информации и диагностическом мышлении, а также процессы сбоев, такие как повторяющиеся вопросы и пропуск истории.

arxiv arXiv cs.CL · 8 д назад

STATEWITNESS: Объяснитель активации для аудита лжи в LLMs

STATEWITNESS представляет объяснитель активации, который аудит ложь в логических LLMs, читая скрытые состояния и генерируя ответы на естественном языке или структурированные отчёты. Он достигает среднего AUROC в 0,916, превосходя существующие чёрные коробки мониторов и объяснители активации на 11,6% и 25,0% соответственно, и предоставляет отслеживание на уровне запроса, схемы и доказательств для проверки человеком.

arxiv arXiv cs.CL · 8 д назад

Второй порядок смещения в LLM: оценка смещения на основе суждений

Новое исследование выявляет второе порядок смещения в больших языковых моделях — социальное смещение в их оценках содержания смещенного. Используя эпистемологию привилегии, исследование разрабатывает задачу логического мышления для оценки того, принимают ли LLM смещённые тексты на основе демографических характеристик, выявляя скрытые смещения, которые варьируются в зависимости от целевой группы и ускользают от механизмов безопасности. Работа вводит два метрики для количественного измерения этих смещений и призывает к более теоретически обоснованным методам оценки в области NLP.

arxiv arXiv cs.CL · 8 д назад

Падение и восстановление точности маршрутизации в системах агентов предприятий

При увеличении каталога инструментов агентов предприятий от 10 до 110 агентов, точность маршрутизации снижается на 16--23 процентных пункта при запросах с недостаточным описанием. Анализ с использованием оракула выявляет разрывы в извлечении и путанице, при использовании базы векторных представлений для сокращения списка результатов восстанавливается +10--11pp F1. Изучение 1435 изъятий с участием человека подтверждает реальное восстановление +10--17pp, несмотря на более низкую абсолютную производительность.

arxiv arXiv cs.CL · 8 д назад

Анализ выразительности иерархических моделей в глубоких трансформерах

В этой статье проводится анализ выразительности глубоких трансформеров с использованием ограниченных грамматик. Авторы строят трансформеры с позиционным вниманием, при котором глубина модели растет линейно с глубиной грамматики, а количество нейронов растет квадратично с числом правил вывода. Результаты подтверждают гипотезу о линейной представимости, показывая, что такие модели могут кодировать абстрактные грамматические состояния в низкодименсиональных линейно разделимых подпространствах.

arxiv arXiv cs.CL · 8 д назад

Декодирование NAR-MBR для быстрой и точной распознавания речи

Декодирование NAR-MBR улучшает распознавание речи за счёт максимизации ожидаемой полезности от отобранных выходов неавторегрессивных моделей. Оно обеспечивает лучшие результаты по сравнению с предыдущими методами NAR и работает быстрее, чем авторегрессивное декодирование, на нескольких корпусах.

arxiv arXiv cs.CL · 8 д назад

Функции LLM могут навредить GNN через интерференцию при конкатенации

Конкатенация функций, сгенерированных LLM, к графовым нейронным сетям систематически снижает точность на тестах с гомофильными данными, при этом точность PubMed снижается на -17,0 ± 0,3 pp. Эта деградация связана с дискриминативностью LLM в отдельности (Delta_sig), которая коррелирует сильно с затратами на конкатенацию (r² = 0,38) и демонстрирует степенную зависимость от размера признаков и количества узлов (r² = 0,97), особенно в условиях низкого Delta_sig и низкого количества узлов.

arxiv arXiv cs.CL · 8 д назад

Сжатые модели языковых моделей не справляются с открытым генерированием, несмотря на успешное прохождение тестов на выбор одного из вариантов

Сжатые большие языковые модели часто успешно справляются с тестами на выбор одного из вариантов, но не справляются с генерацией корректных ответов в открытых ответах. Эта "обманная оценка" показывает, что ответы не удаляются, а лишь снижаются по значимости, и появляются только при использовании продвинутых методов генерации, таких как beam search или sampling. Стандартные оценочные тесты переоценивают практическую применимость сжатых моделей, подчеркивая критическую пробел в оценке.

arxiv arXiv cs.CL · 8 д назад

OPD-Evolver: Он-политическая дистилляция для всестороннего эволюционирования агентов

OPD-Evolver представляет рамку медленного и быстрого совместного эволюционирования, которая позволяет агентам выбирать, действовать и повторно использовать опыт через он-политическую самодистилляцию. Он превосходит существующие методы на основе памяти и обучения на 11,5% и 5,8% соответственно, и демонстрирует способность конкурировать с крупномасштабными моделями, такими как Qwen3.5-397B-A17B и Step-3.5-Flash.