Research paper — korshunov.ai

Research paper Страница 1 / 19

Локальная маршрутизация ветвей: эффективное обучаемое масштабирование на этапе тестирования для языковых моделей

Авторы представляют локальную маршрутизацию ветвей (LBR), фреймворк на уровне токенов, предназначенный для улучшения рассуждений языковых моделей за счет эффективного масштабирования на этапе тестирования. LBR расширяет небольшое локальное дерево предварительного просмотра и направляет все сэмплированные ветви через модель, используя легкий маршрутизатор для выбора поддерева глубины 1 для фиксации. Этот подход позволяет каждому решению по токену использовать доказательства из кандидатов локального будущего без вычислительных затрат полного поиска на уровне решения. Метод использует процесс декодирования prune-shift-grow (отсечение-сдвиг-рост), который сохраняет дискретные идентичности ветвей и определяет вычисляемую вероятность траектории дерева. Таким образом, LBR позволяет сквозное обучение с подкреплением с верифицируемыми наградами, совместно оптимизируя базовую модель и маршрутизатор по тому же принципу отношения правдоподобия, что и дискретное RLVR для токенов. Экспериментальные результаты на синтетических задачах иерархического планирования демонстрируют, что скрытые состояния после кандидатов предоставляют полезные доказательства для маршрутизации. Кроме того, бенчмарки в области математических рассуждений показывают, что LBR улучшает метрики Pass@1 и Pass@32 по сравнению с дискретным цепочечным мышлением (chain-of-thought) и другими базовыми методами.

arxiv arXiv cs.CL · 10 ч назад

Нейронный машинный перевод для низко-ресурсной пары танхул-английский

В данном исследовании рассматривается задача машинного перевода для низко-ресурсной языковой пары танхул-английский, с акцентом на сильно недопредставленный тибето-бирманский язык, обладающий минимальной предыдущей инфраструктурой в области NLP. Авторы представляют две системы: основную модель на базе ByT5-large и контрастивную систему, использующую mT5-small, обе из которых были дообучены на 38 336 парах параллельных предложений. Оценка на выделенном тестовом наборе из 3 856 предложений показывает, что система ByT5-large достигает corpus BLEU-оценки 39.97 и chrF++-оценки 58.07. Дополнительные метрики включают BERTScore F1 равный 0.8104 и COMET-оценку 0.7302 с использованием модели wmt22-comet-da. Исследование подчеркивает орфографические проблемы, связанные с диакритическими знаками латинского алфавита танхула, как специфическую техническую преграду. Кроме того, обучающий корпус демонстрирует доменную предвзятость, состоящую преимущественно из библейских текстов, историй и разговорных данных. Будущая работа направлена на улучшение результатов за счет диверсификации данных и стратегий адаптации к домену.

arxiv arXiv cs.CL · 11 ч назад

Вычислительная стилометрия переводов английского Палийского канона по трем Питакам

В данном исследовании представлен вычислительный стилометрический анализ Типитаки по всем трем Питакам в английском переводе, расширяющий предыдущие работы над Сутта-питакой. Корпус включает 134 831 сегмент из Сутта-питаки Бхикку Судхато, Виная-питаки Бхикку Брамахали, перевода Виная 1938 года И.Б. Хорнер, трех английских переводов Абхидхамматтха Сангахи и текстов Виная межтрадиционного характера. Авторы вычисляют распределения рангов и частотности по закону Ципфа, лексическое разнообразие MATTR-500, плотность соотношения чисел к словам и метрики перекрытия словарного запаса. Основные выводы указывают на то, что все корпуса демонстрируют распределения, согласующиеся с законом Ципфа, со значениями коэффициента детерминации (R-squared) выше 0,989. Сутта-питака и Тхеравада Виная имеют практически идентичные показатели лексического разнообразия: 0,399 и 0,400 соответственно, тогда как корпус Сангахи более разнообразен с показателем 0,560. Корпус Сангахи также демонстрирует наибольшую плотность соотношения чисел к словам — 3,26%, что отражает его систематическое перечисление категорий. Кроме того, Виная Муласарвастивада имеет значительное перекрытие словарного запаса с Тхеравада Виная, в то время как два английских перевода одного и того же источника делят лишь 24,2% своего словарного запаса.

arxiv arXiv cs.CL · 11 ч назад

Story Operators: Декомпозиция преобразования от оригинала к сиквелу в пространстве эмбеддингов

В данном исследовании литературные трансформации моделируются как геометрические операции в пространстве предложений-эмбеддингов с использованием векторов all-mpnet-base-v2 из корпуса PG19. Вычисляя векторы смещения между оригинальными романами и их сиквелами, автор декомпозирует эти изменения по базису контента, полученному с помощью PCA. Анализ тринадцати подтвержденных пар авторов выявляет таксономию типов сиквелов: формальные, концентрированные и композиционные. Формальные трансформации включают минимальные изменения ранга, такие как сборники о Шерлоке Холмсе Дойла с нормой 0.12. Концентрированные сдвиги доминируются одной осью, что иллюстрируется переходом от «Маленьких женщин» Алькотт к «Маленьким мужчинам», где 75% изменений происходит по одному направлению. Композиционные трансформации включают множество малых осей, наблюдаемых в произведениях Твена, Берроуза и Несбит. Для перехода от «Приключений Тома Сойера» к «Приключениям Гекльберри Финна» доминирующая ось является структурной, отражая сдвиг от домашнего уклада к пикарескному приключению, а не поверхностные темы, такие как разговорный стиль. Геометрические выводы подтверждаются на основе задокументированных авторских намерений Марка Твена в письмах к Хауэллсу.

arxiv arXiv cs.CL · 11 ч назад

Представляем корпусы Hlava Cor и Hlava AD: Вариации человеческих оценок в задачах кореференции и дискурсивных отношений

Исследователи создали два новых корпуса, Hlava Cor и Hlava AD, для изучения вариаций человеческого восприятия связности текста. Эти ресурсы содержат множественные аннотации чешских текстов вместе с объяснениями аннотаторов их выбора. Первый корпус, Hlava Cor, состоит из 1024 контекстов, аннотированных тремя людьми, чтобы зафиксировать различия в идентификации кореференции. Он охватывает местоимения, полные именные группы и анафорические наречия в различных типах текстов и грамматико-семантических категориях. Второй корпус, Hlava AD, включает 512 контекстов, аннотированных пятью аннотаторами, с фокусом на дискурсивных отношениях в атрибутивных и неатрибутивных конструкциях. Оба корпуса достигают меж-аннотаторского согласия примерно на уровне 60–65 процентов. Анализ показывает, что более низкое согласие по кореференции коррелирует с несогласием автоматических моделей, что указывает на большую неоднозначность. Комментарии аннотаторов дополнительно подчеркивают различные уровни уверенности и индивидуальные стратегии чтения.

arxiv arXiv cs.CL · 11 ч назад

Моделирование мира, созданное агентом, согласует обучение с потребностями принятия решений

В статье представлена процедура обучения Agent-Authored World Modeling (AAWM), которая устраняет ограничения стандартных целей моделирования мира, связанных с предсказанием следующего наблюдения. Этот традиционный подход часто игнорирует динамику, релевантную для текущего решения агента, поскольку обучение под контролем зависит от того, что раскрывает переход, а не от того, что необходимо. AAWM формирует обучение под контролем непосредственно из потребностей принятия решений политики, позволяя агенту определять необходимое понимание среды в каждом состоянии. Релевантные доказательства переходов извлекаются по траекториям и синтезируются в обучающие цели, которые захватывают эту ориентированную на решения динамику. Этот метод согласует цель обучения с конкретной информацией, необходимой перед действием, вместо того чтобы заставлять модель реконструировать следующее наблюдение. Экспериментальные результаты подтверждают эффективность AAWM в нескольких средах и настройках обучения. Результаты показывают, что цели моделирования мира, учитывающие принятие решений, обеспечивают более эффективный сигнал обучения, чем стандартное предсказание следующего наблюдения.

arxiv arXiv cs.CL · 11 ч назад

OscillaTTS: Адаптивная осцилляторная индуктивная предвзятость для моделирования резких просодических динамики в диффузионных TTS-системах

Диффузионные модели преобразования текста в речь улучшили качество синтеза, но испытывают трудности с резкими просодическими переходами и быстрыми изменениями высоты тона. Существующие декодеры часто используют периодические нелинейности, такие как функция активации Snake, которые не обладают адаптивностью к внезапным изменениям амплитуды и частоты. Для решения этой проблемы авторы предлагают OscillaTTS — систему, оснащённую адаптивной осцилляторной нелинейностью. Этот компонент обеспечивает управляемую периодическую модуляцию, одновременно гарантируя стабильность сигнала благодаря механизму линейного обхода. В исследовании рассматривается роль осцилляторной индуктивной предвзятости в декодерах диффузионных TTS-систем. Эксперименты, проведённые на наборах данных LJSpeech и Emotional Speech Dataset, демонстрируют последовательные улучшения как по объективным, так и по субъективным метрикам. Эти результаты показывают, что OscillaTTS эффективно моделирует выразительную просодическую динамику по сравнению с предыдущими методами.

arxiv arXiv cs.CL · 11 ч назад

PolicyAlign: Прямое согласование политик для обеспечения безопасности больших языковых моделей

Авторы представляют PolicyAlign — фреймворк, предназначенный для прямого согласования больших языковых моделей с политиками безопасности, заданными на естественном языке, вместо использования дорогостоящих размеченных данных. Этот подход решает проблему несоответствия между быстро меняющимися требованиями к безопасности и традиционными методами выравнивания, основанными на данных. Процесс начинается с синтеза инструкций, нарушающих указанную политику, за которым следует самодистилляция в рамках текущей политики для усвоения желаемого поведения. Для повышения стабильности обучения и эффективности использования данных метод включает Policy-Sensitive Filtering (чувствительную к политике фильтрацию), которая отбирает инструкции, вызывающие наибольшее изменение поведения. Эксперименты на нескольких моделях показывают, что PolicyAlign последовательно улучшает показатели безопасности при сохранении низкого уровня избыточных отказов и сохранении общих возможностей. Фреймворк также эффективно обобщается на специализированные области, такие как медицинские, юридические и финансовые сценарии безопасности. Код этого масштабируемого подхода к выравниванию опубликован по адресу https://github.com/Qwen-Applications/PolicyAlign.

arxiv arXiv cs.CL · 11 ч назад

Предобучение речевого энкодера с усилением за счёт перевода улучшает речевые большие языковые модели

Подключение предварительно обученного речевого энкодера к большой языковой модели (LLM) создаёт структурное несоответствие, поскольку энкодеры часто генерируют представления, специфичные для языка, тогда как LLM работают в едином, независимом от языка пространстве. Авторы утверждают, что включение целей перевода речи в процесс предобучения обеспечивает принципиальный механизм для преодоления этого разрыва. В отличие от моноязычной транскрипции, перевод заставляет модель обучаться представлениям, независимым от конкретных языков. В исследовании экспериментально оценивается влияние добавления этих целей перевода на этапе предобучения речевого энкодера. Результаты демонстрируют, что такой подход значительно улучшает кросс-модальную интеграцию между речевым и текстовым модусами. В результате модели, использующие предобучение с усилением за счёт перевода, показывают превосходные результаты в различных задачах речевых больших языковых моделей.

arxiv arXiv cs.CL · 11 ч назад

Оценка Reclaim показывает, что потеряющая память хуже, чем отсутствие памяти

Исследование демонстрирует, что наличие в памяти языковой модели неверных выводов более вредно, чем полное отсутствие памяти. Когда модели сохраняют устаревшие значения, отбрасывая при этом поддерживающие данные, они выдают уверенные, но ошибочные ответы, тогда как пустая память позволяет воздерживаться от ответов. Это явление, названное хрупкой памятью (brittle memory), наблюдалось в семи моделях, причем направление ошибки никогда не менялось независимо от задачи или disposition. Исследователи предложили оценку Reclaim для измерения исправляемости путем сжатия взаимодействий и проверки того, восстанавливаются ли коррекции до ground truth без использования judge. Результаты показывают, что исправляемость зависит от того, сохраняется ли исходная информация после сжатия, а не от возможностей модели. Политика source-first, которая сохраняет пересчитываемые источники и отбрасывает выводимые заключения, значительно лучше восстанавливает исправляемость по сравнению с контрольными группами, сопоставленными по длине. В циклах связанной памяти ошибки из-за потери источников необратимо искажают последующие шаги, тогда предлагаемое решение поддерживает ограниченные горизонты производительности. Выводы воспроизводятся в трех развернутых системах и реальных диалоговых данных, при этом hand-built oracle достигает идеальной точности.

arxiv arXiv cs.CL · 12 ч назад

Спектр обобщения: хроматографический подход к оценке алгоритмов обучения

Традиционные оценки сводят обучение к единому агрегированному показателю, скрывая то, насколько хорошо знания из одного примера обобщаются на другие. Авторы вводят Спектр обобщения (Generalization Spectrum) — фреймворк оценки, который измеряет обобщение для каждого образца путем отслеживания производительности по вариантам тестов с увеличивающимся расстоянием переноса. Эти варианты варьируются от точного воспроизведения до переноса реализации между языками и переноса контекста при нарративном перефрейминге. Фреймворк реализован на основе соревновательного программирования с использованием конвейера выбора и синтеза, инициированного недавними задачами для снижения риска загрязнения данных. Сравнения канонических парадигм обучения показывают, что обучение с подкреплением (Reinforcement Learning) преобразует запоминание в перенос на близкие задачи эффективнее, чем базовые методы контролируемой тонкой настройки (Supervised Fine-Tuning). Обучение в контексте (in-context learning) демонстрирует сильные, но зависящие от соответствия возможности переноса в данном контексте. Диагностические профили показывают, что локальные улучшения не обязательно расширяют радиус обобщения для всех методов. В частности, абстракции и подсказки в основном повышают локальный перенос, тогда как Контролируемая тонкая настройка с использованием эталонов (Reference SFT) сохраняет более сильный хвост распределения для дальнего переноса по сравнению с RL с подкреплением (RFT). Кроме того, самодистилляция или

arxiv arXiv cs.CL · 12 ч назад

Исследование самонадзирательных речевых представлений для поддиалектов мандаринского языка с помощью ненадзорного артикуляторного анализа

В данном исследовании изучается, как внутренние фонетические представления в моделях самонадзирательного обучения ведут себя при тонких диалектных вариациях, что позволяет преодолеть ограничения существующих исследований зондирования (probing studies), опирающихся на курируемые корпуса. Авторы представляют кейс-стади с использованием полностью ненадзорного конвейера зондирования для поддиалектов мандаринского языка. Последовательности фонем генерируются с помощью универсального распознавателя фонем, не зависящего от языка, и отображаются в векторы артикуляторных признаков, что позволяет проводить зондирование на уровне кадров без ручной аннотации. Результаты выявляют структурированные паттерны декодируемости артикуляторных признаков для различных диалектов мандаринского языка. Акустически заметные признаки, такие как лабиальность и стриденция, остаются относительно стабильными, тогда как признаки, связанные с более тонкими спектральными различиями, демонстрируют большую вариативность в зависимости от диалекта. Эта вариативность обусловлена преимущественно повышенной декодируемостью для пекинской речи по сравнению с другими поддиалектами. Послойный анализ демонстрирует различные динамические характеристики представлений для этих групп признаков, что указывает на неравномерную чувствительность к диалектам в различных артикуляторных измерениях.

arxiv arXiv cs.CL · 12 ч назад

Полностью дифференцируемое нейронное форсированное выравнивание с помощью мягкого динамического программирования

Авторы предлагают сквозную, полностью дифференцируемую нейронную архитектуру, специально разработанную для фонемного выравнивания, чтобы преодолеть застой в этой области по сравнению с достижениями в распознавании речи (ASR). Модель включает кодировщик с двумя дополнительными ветвями, предназначенными для проверки идентичности фонемы и обнаружения границ. Декодер, реализованный в виде обучаемого модуля на основе дифференцируемого мягкого динамического программирования, формирует окончательные решения по выравниванию. Вся система оптимизируется с использованием нового контрастивного лосса, который способствует четкому разделению между областями стационарных состояний фонем и границами переходов. Экспериментальные результаты показывают, что предложенный подход превосходит современные методы на размеченных вручную английских бенчмарках. Кроме того, модель демонстрирует сильные способности к обобщению на уровне слов и эффективную работу на невиданных ранее языках.

arxiv arXiv cs.CL · 12 ч назад

Доработанная модель PEGASUS достигает лучших результатов на корпусе XL-Sum на английском языке

В данной статье представлен метод оптимизации абстрактного суммирования текста путем дообучения модели PEGASUS на корпусе данных XL-Sum на английском языке. Цель состоит в том, чтобы превзойти показатели базовой модели mT5 при генерации кратких резюме, которые передают ключевые идеи, а не просто извлекают предложения. Сгенерированные резюме оцениваются с помощью метрики ROUGE, которая сравнивает автоматически созданные результаты с референсами, созданными человеком. В исследовании утверждается, что дообученная модель PEGASUS достигает лучших результатов на этом конкретном наборе данных. Количественный анализ показывает улучшение показателя ROUGE-1 на 4,04% по сравнению с базовой моделью. Кроме того, модель демонстрирует значительное увеличение показателя ROUGE-2 на 15,25%. Наконец, зафиксировано улучшение показателя ROUGE-L на 3,39%, что подтверждает эффективность подхода дообучения.

arxiv arXiv cs.CL · 12 ч назад

Cliff Tokens: Выявление триггеров сбоев на одном токене в математическом рассуждении больших языковых моделей

Исследователи вводят понятие cliff tokens для выявления конкретных триггеров сбоев на одном токене в больших языковых моделях при выполнении задач математического рассуждения. В отличие от предыдущих работ, анализирующих сбои на уровне шагов или предложений, данный метод точно определяет токен, где вероятность успеха значительно падает, используя адаптивный порог на основе z-теста. Исследование оценивает семь моделей на трех бенчмарках: GSM1K, MATH500 и AIME 2025. Удаление первого cliff токена и повторная выборка позволяют восстановить показатель pass@64 до 1.0, тогда как его сохранение ограничивает восстановление в диапазоне от 0.71 до 1.00. Авторы предлагают таксономию, классифицирующую cliffs как детерминированные, неопределенные или отсеченные выборкой (sampled-off) на основе жадного выбора и энтропии токена. Эта классификация обобщается для моделей разных масштабов и демонстрирует различные вероятностные характеристики для каждого типа. Кроме того, команда проверяет эту таксономию с помощью оптимизации предпочтений на одном токене, известной как Cliff-DPO. Обученная на GSM8K, Cliff-DPO повышает точность до +6.6 по всем бенчмаркам. Оптимизация оказывается эффективной для неопределенных и отсеченных выборкой cliffs, но не дает улучшений для детерминированных.

arxiv arXiv cs.CL · 13 ч назад

SFL-MTSC: Использование семантической кадра-уровневой многозадачной самосогласованности для надежного понимания разговорной речи с несколькими намерениями

Понимание разговорной речи на основе промптов с использованием больших языковых моделей часто страдает от несогласованности структур намерений и слотов из-за стохастичности декодирования, особенно в сценариях с несколькими намерениями. Чтобы решить эту проблему, исследователи предлагают семантическую кадра-уровневую многозадачную самосогласованность (SFL-MTSC) — новую структурированную схему агрегации, работающую на уровне семантических кадров. Вместо опираниясь на голосование большинства на уровне вывода, SFL-MTSC разбивает предсказания на кадры, специфичные для намерений, и применяет группировку по домену и намерению вместе с кластеризацией на уровне слотов. Схема оценивает надежность кластеров с помощью подсчета поддержки пути, чтобы определить, какие кадры являются надежными. Надежные кадры сохраняются и повторно интегрируются для формирования окончательного предсказания, обеспечивая большую структурную согласованность. Эксперименты в режиме zero-shot на наборе данных MAC-SLU демонстрируют улучшение показателей F1 для слотов и общей точности по сравнению с однопутным выводом. Точность определения намерений остается в значительной степени стабильной во большинстве настроек, при этом достигаются эти улучшения на уровне слотов.

arxiv arXiv cs.CL · 13 ч назад

Riazi-8B: большая языковая модель для математического рассуждения на урду

Недавние большие языковые модели демонстрируют сильные способности к математическому рассуждению, однако эти достижения в значительной степени опираются на англоцентричные ресурсы, оставляя такие языки с низким уровнем ресурсов, как урду, с ограниченными возможностями. Чтобы восполнить этот пробел, исследователи разработали Riazi-8B — модель на урду, специально предназначенную для решения многошаговых математических задач. Модель была создана посредством двухэтапного процесса адаптации, включающего продолжение предобучения на урду-версии Википедии и контролируемое тонкое дообучение (supervised fine-tuning) на данных цепочки рассуждений (Chain-of-Thought) на урду, полученных из GSM8K. Оценка Riazi-8B проводилась на бенчмарке MGSM-Urdu по сравнению с существующими моделями, тонко настроенными для инструкций на урду. Результаты показали последовательные улучшения в правильности ответов, качестве рассуждений, полноте ответов и генерации текста на урду по сравнению с базовыми моделями. Эти выводы демонстрируют, что сочетание адаптации языка урду с тонким дообучением, ориентированным на рассуждения, эффективно расширяет возможности математического рассуждения для языков с низким уровнем ресурсов.

arxiv arXiv cs.CL · 13 ч назад

Налог на ограничения в LLM с открытым весом: подавление вызова инструментов при структурных ограничениях вывода

В данном исследовании выявлен феномен, называемый подавлением вызова инструментов (Tool Suppression), при котором языковые модели с открытым весом перестают вызывать инструменты, когда одновременно включены ограничения JSON Schema. Авторы наблюдали это поведение в производственной системе агентов и воспроизвели его посредством контролируемых экспериментов на нескольких семействах моделей. Хотя выполнение инструментов и соответствие схеме корректно функционируют при независимой оценке, они дают сбой при совместном развертывании. Анализ показывает, что ограничения JSON Schema компилируются в грамматические маски токенов, делая токены вызова инструментов недостижимыми во время декодирования. Для интерпретации этих результатов статья выдвигает гипотезу о инверсии приоритета ограничений (Constraint Priority Inversion), предполагающую, что удовлетворение схеме доминирует над выбором действия при одновременных ограничениях. Авторы смягчают эту проблему, внедряя стратегию выполнения на этапе вывода под названием Transparent Two-Pass Execution, которая разделяет выполнение инструментов и генерацию ответа. Этот подход восстанавливает вызов инструментов, сохраняя гарантии структурированного вывода без необходимости переобучения модели. Исследование подчеркивает, что оценка возможностей по отдельности может упускать из виду критические проблемы надежности в производственных системах.

arxiv arXiv cs.CL · 13 ч назад

REVERIEMEM: Ограниченная перспективой память для ролевых агентов на основе книг

Недавние системы ролевой игры на базе больших языковых моделей часто терпят неудачу в контекстах длинных нарративов из-за фактических переобобщений и стилистической монотонности. Фактические переобобщения возникают, когда персонажи получают доступ к информации за пределами своей нарративной перспективы, а стилевая монотонность сглаживает голоса персонажей посредством статических описаний профилей. Для решения этих проблем авторы предлагают REVERIEMEM — трехуровневую архитектуру памяти, разработанную для книжных персональных агентов. Эта система использует эпизодический слой для воспоминаний о сценах от первого лица, семантический слой для фактов с тегами видимости и слой личности для поведенческих паттернов, зависящих от ситуации. Исследователи также представляют KBF-QA — бенчмарк, состоящий из 4386 вопросов по восьми романам, предназначенный для проверки границ знаний. Экспериментальные результаты показывают, что REVERIEMEM улучшает показатель верности границам знаний (Knowledge Boundary Fidelity) на 34,6 процентных пункта по сравнению с предыдущими методами. Кроме того, модель достигает примерно 79% доли побед в пятимерном парном нарративном протоколе BOOKWORLD. Эти выводы свидетельствуют о том, что память, ограниченная перспективой, эффективно повышает как фактическую точность, так и генерацию нарративов, привязанных к персонажу.

arxiv arXiv cs.CL · 14 ч назад

Фреймворк оценивает, когда необходимы GraphRAG и агентный RAG

Авторы представляют фреймворк для оценки и сравнения обычного, GraphRAG, модульного и агентного Retrieval-Augmented Generation (RAG) на полуструктурированных базах знаний. Они реализуют девять стандартизированных сценариев, охватывающих простой поиск документов до сложной гибридной интеграции текста и графа, а также агентное многошаговое планирование. Представлен новый метод контекстной инженерии для решения проблем переполнения памяти в продвинутых вариантах RAG за счет новых представлений и дизайна агентного цикла. Эта оптимизация обеспечивает снижение использования токенов на 19–53% при эффективном управлении извлечением информации. Дальнейший анализ выявляет разрыв между извлечением и генерацией, при котором расширенное извлечение не приводит к пропорциональному улучшению качества генерации. Исследование предполагает, что текущие метрики, ориентированные на извлечение, могут преувеличивать преимущества продвинутых техник извлечения информации. Эти основанные на данных инсайты призваны направлять разработку готовых к производству интеллектуальных систем RAG.