Retrieval & RAG
arxiv arXiv cs.LG · 7 д назад

AI Экономист-агент: Фреймворк анализа на основе моделей

AI Экономист-агент использует RAG, графы знаний и ЛЛМ для генерации экономических нарративов, основанных на теории и данных. Он обеспечивает анализ на основе моделей, извлечение доказательств и генерацию отчетов, гарантируя экономическую целостность и отслеживаемость за счет явных вычислений моделей.

arxiv arXiv cs.LG · 7 д назад

Обучение, извлечение или оба варианта? Прямое сравнение по статутарной цитате в отношении закона о жилищных договорах в Онтарио

Четырехканальное сравнение показывает, что извлечение необходимо для точной статутарной цитаты в соответствии с Законом о жилищных договорах в Онтарио. Гибридная модель SFT+RAG достигает точности 0,481 с нулевыми халлюцинациями, превосходя базовые и модели только с SFT, и соответствует результатам системы, использующей более крупные и специализированные модели, без необходимости в большом объеме данных или более крупных наборах для обучения. Результаты основаны на небольшом, человеко-проверенном реальном наборе данных и являются предварительными.

arxiv arXiv cs.CL · 7 д назад

Фреймворк мультиагентной транзакционной памяти

Фреймворк мультиагентной транзакционной памяти (MATM) обеспечивает хранение и извлечение траекторий, сгенерированных агентами на уровне популяции. Он позволяет производящим агентам делиться процедурными знаниями с потребляющими агентами, что улучшает выполнение задач и снижает количество шагов взаимодействия в интерактивных средах, таких как ALFWorld и WebArena, без координации или совместной тренировки.

arxiv arXiv cs.CL · 7 д назад

Стабилизация намерения инструмента в потоковом RAG

Исследование оценивает стабилизацию намерения инструмента в потоковом RAG, определяя момент, когда спекулятивные запросы на инструменты сходятся к правильным ответам. На бенчмарке CRAG 73,9% запросов позволяют значительное скрытие задержки, при этом ранняя стабилизация наблюдается в вопросах с прямым извлекаемым доказательством. Тип вопроса значительно предсказывает раннюю или позднюю стабилизацию, что позволяет определить, когда спекулятивные триггеры оказываются эффективными.

arxiv arXiv cs.CL · 7 д назад

CATCH-ME, если вы RAG: Мультимедийный датасет для противодействия ненависти и недостоверной информации

CATCH-ME представляет первый масштабный мультимедийный датасет контекстуально аннотированных мульти-переводных диалогов противодействия ненависти и недостоверной информации. Датасет охватывает пять языков и сосредоточен на семи маргинализированных группах, диалоги основаны на проверенных источниках фактической проверки и включают аннотации на уровне документов и фрагментов для систем RAG.

media r/LocalLLaMA · 7 д назад

LFM2.5-Embedding-35-0M и LFM2.5-ColBERT-350M были выпущены

LFM2.5-Embedding-350M — это плотный двойной кодировщик, обеспечивающий быструю мультиязычную ретриев-операцию с одним вектором на документ, достигающий наилучшей точности для своего размера и скорость инференса, сравнимой с более малыми моделями. LFM2.5-ColBERT-350M — это ретриев-модель с поздним взаимодействием, обеспечивающий наилучшую мультиязычную точность, позволяющий проводить межязычную ретриев-операцию, храня один вектор на токен и поддерживая ретриев на нескольких языках с высокой точностью. Оба моделя являются разработанными как прямые замены для существующих пайплайнов RAG.

arxiv arXiv cs.CL · 7 д назад

PhysAssistBench оценивает LLMs в взаимодействии доктор-пациент-ЭХР

PhysAssistBench представляет бенчмарк для интерактивной помощи доктору-пациенту-ЭХР с использованием реальных случаев MIMIC-IV. В нём содержатся 1296 ручно проверенных и подтверждённых врачами диалогов, и показано, что текущие LLMs испытывают трудности при координации клинических знаний, коммуникации и взаимодействия с системой ЭХР.

arxiv arXiv cs.CL · 7 д назад

DICE улучшает поиск в длинных документах с агрегацией доказательств по кускам

DICE, метод без обучения, разделяет длинные документы на куски, кодирует их независимо и агрегирует результаты в один вектор. Он снижает индекс размытия доказательств в 92,8% случаев на LongEmbed, что значительно улучшает производительность поиска для фрагментов длиной более 4k токенов при четырёх основах.

media r/LocalLLaMA · 8 д назад

Мы создали открытый источник UI-кит для RAG/агентов документов

Extend AI выпустил открытый источник UI-кит с 15 компонентами для просмотра PDF, DOCX и XLSX, включая рамки цитирования, загрузку файлов, электронную подпись и файловую систему. Инструмент, лицензированный MIT и полностью настраиваемый, изначально был внутренним, но теперь открыт благодаря спросу со стороны клиентов, и поддерживается для масштабируемости и обработки редких случаев в высоконагруженных процессах обработки документов.

arxiv arXiv cs.CL · 8 д назад

ProvenanceGuard: проверка достоверности с учетом источника для агентов на основе LLM с использованием MCP

ProvenanceGuard вводит проверяющий модуль с учетом источника для агентов на основе LLM с использованием MCP, который обнаруживает пересечение источников путем направления утверждений к конкретным источникам доказательств и сравнения заявленного принадлежности с фактическим владением источником. Он достигает значения F1 по блокам 0,802 и точности по источникам 0,858 на 260 утверждениях, имеющих источники, превосходя базовые модели без учета источника, и обнаруживает все введенные обмены принадлежности в 50 клинических тестах.

arxiv arXiv cs.CL · 8 д назад

HistoRAG: Интеграция исторической методологии в RAG

HistoRAG вводит архитектурные изменения в Retrieval-Augmented Generation, основанные на историографических принципах. Он разделяет процесс поиска и генерации, реализует временные окна для сбалансированного представления источников и использует оценку на основе LLM-судьи для прозрачных оценок релевантности. Оценка проводится на 102 189 статьях Der Spiegel (1950–1979), и в рамках этой оценки выявлены недостатки стандартной RAG, включая временной сдвиг и слабую корреляцию поиска, а также предложена методика интеграции Zwischentexte как ответственного способа включения содержимого, сгенерированного LLM, в научную работу.

arxiv arXiv cs.AI · 8 д назад

ProvenanceGuard: проверка фактичности с учетом источника для агентов на основе LLM с использованием MCP

ProvenanceGuard вводит проверяющий модуль с учетом источника для агентов на основе LLM с использованием MCP, который обнаруживает пересечение источников путем направления утверждений к конкретным источникам доказательств и сравнения указанного источника с фактическим владением источником. Он достигает значения F1 по блокам 0,802 и точности по источникам 0,858 на 260 утверждениях, имеющих источники, превосходя базовые модели без учета источника, и обнаруживает все вставленные замены атрибутов в 50 клинических пробах.

arxiv arXiv cs.AI · 8 д назад

HyGRAG: Единая платформа для контекст- и отношение-ориентированных графовых RAG

HyGRAG представляет иерархическую платформу для графовых RAG, которая интегрирует контекстуальную и относительную информацию через синтезированные резюме. Она обеспечивает извлечение эмерджентных знаний за счёт поиска, ориентированного на контекст и отношения, на разных уровнях абстракции и поддерживает динамические обновления с локальной пересборкой. Эксперименты показывают улучшение точности многократного рассуждения на 9,7%.

arxiv arXiv cs.CL · 9 д назад

Подача системы одновременного перевода речи MLLP-VRAIN на IWSLT 2026

Группа MLLP-VRAIN подает каскадную систему SimulST, использующую модели Parakeet и Qwen 3.5 с адаптивными политиками черного ящика. Для En→De, It, Zh, она использует усиление слов аудиосинтеза и RAG с предварительно переведенными образцами в новом контекстном треке, достигая улучшения на 5,82 XCOMET-XL на MCIF En→De и дополнительного роста на 1,03 за счет интеграции контекста.

arxiv arXiv cs.CL · 9 д назад

MODE-RAG: Оценка и сокращение халлюцинаций в M-RAG

MODE-RAG предлагает многоконтрольную систему, использующую вариационную свободную энергию для динамического управления вмешательствами и снижения халлюцинаций между модальностями в системах расширенного генерирования на основе извлечения. Система интегрирует поиск дерева Монте-Карло и возмущения логитов для решения проблем причинных фальшивок и сycопхантичности, при этом специализированные агенты обеспечивают проверку фактической достоверности и стабильность форматирования. Оценка осуществляется с помощью ModeVent, подмножества MultiVent, что позволяет системе значительно повысить устойчивость к логическим фальшивкам.