Тема · Retrieval & RAG
lab Mistral AI News · 2 д назад

Mistral выпустил OCR 4 с поддержкой нескольких языков и структурированным выводом

Mistral OCR 4 вводит границы прямоугольников, классификацию блоков и внутренние оценки достоверности для 170 языков в 10 группах языков. Он превосходит ведущие системы распознавания текста в оценках предпочтений людей с коэффициентом выигрыша 72% и достигает наивысшей оценки на OlmOCRBench (85,20), при этом обеспечивая развертывание в одном контейнере и поддержку корпоративных сценариев, таких как RAG и ввод документов.

arxiv arXiv cs.CL · 8 д назад

ProvenanceGuard: проверка достоверности с учетом источника для агентов на основе LLM с использованием MCP

ProvenanceGuard вводит проверяющий модуль с учетом источника для агентов на основе LLM с использованием MCP, который обнаруживает пересечение источников путем направления утверждений к конкретным источникам доказательств и сравнения заявленного принадлежности с фактическим владением источником. Он достигает значения F1 по блокам 0,802 и точности по источникам 0,858 на 260 утверждениях, имеющих источники, превосходя базовые модели без учета источника, и обнаруживает все введенные обмены принадлежности в 50 клинических тестах.

arxiv arXiv cs.AI · 8 д назад

ProvenanceGuard: проверка фактичности с учетом источника для агентов на основе LLM с использованием MCP

ProvenanceGuard вводит проверяющий модуль с учетом источника для агентов на основе LLM с использованием MCP, который обнаруживает пересечение источников путем направления утверждений к конкретным источникам доказательств и сравнения указанного источника с фактическим владением источником. Он достигает значения F1 по блокам 0,802 и точности по источникам 0,858 на 260 утверждениях, имеющих источники, превосходя базовые модели без учета источника, и обнаруживает все вставленные замены атрибутов в 50 клинических пробах.

media Hugging Face Forums · 6 ч назад

Онтологическая инверсия: переключение эмоциональных концепций LLM с помощью отрицательного градиента

Автор представляет «онтологическую инверсию» — технику, предназначенную для расширения однонаправленной природы вывода больших языковых моделей. Этот метод позволяет моделям улавливать тонкие, многогранные концепции, такие как воспоминания, вызывающие одновременно печаль и радость. Подход был разработан путем применения коэффициента отрицательного градиента при проходах в архитектуре управления Niodoo. Он решает распространенное ограничение, при котором LLM переобучаются на единственные эмоциональные метки при запросе личных воспоминаний. Инвертируя концепции аналогично инволюции в физике, техника позволяет моделям менять эмоциональные состояния, например, превращать печальные воспоминания в радостные. Работа опубликована в репозитории GitHub под названием 'ontological-inversion' пользователем Ruffian-L.

arxiv arXiv cs.AI · 11 ч назад

ARIA: Фреймворк с учетом причинности для восстановления логического мышления в ЛЛМ

ARIA решает проблему контекстуального туннелирования в ЛЛМ за счет условного использования знаний на уровне механической полноты. Оно использует трехуровневую цепочку для причинного мышления, передачи с физической интерпретацией и параметрического резерва, и улучшает открытие материалов за счет проверяемого, физически обоснованного мышления.

arxiv arXiv cs.CL · 1 д назад

MMed-Bench-IR: Мультималярный медицинский бенчмарк по поиску

MMed-Bench-IR представляет гетерогенный бенчмарк для мультималярного медицинского поиска информации на шести языках. Он оценивает межязыковую синхронизацию, дифференциацию концепций и извлечение доказательств через три различных задания без пересекающихся концепций или запросов. Оценка показывает значительное падение межязыковой производительности, при переходе на японский язык английские биомедицинские энкодеры снижаются с 0.818 до 0.056 nDCG@10, что подчеркивает ограничения, не обнаруженные в бенчмарках, основанных только на английском языке.

arxiv arXiv cs.CL · 1 д назад

Анонимизация RAG за счёт семантической переписки многоагентной системы

Многоагентная система очищает извлечённый контент, удаляя чувствительные идентификаторы с помощью семантической переписки, что снижает утечку приватности в целевых атаках. Система сохраняет высокую контекстуальную точность с показателем BLEU-1 в 0,122, превосходя показатель SAGE в 0,117, и работает как асинхронный предварительный этап без добавления задержки к онлайн-инференсу.

media r/LocalLLaMA · 1 д назад

Бенчмарк LLM в медицинской синтаксисе: пропуски превосходят выдумки

Бенчмарк 8 LLM на 300 синтетических диалогов врачи-пациенты выявил 12 высококритичных выдумок и 520 клинически значимых пропусков. Пропуски были значительно чаще, чем выдумки: DeepSeek показал отличные качества в стилистике и стоимости, но упустил множество фактов о безопасности, в то время как Claude Opus имел наименьшее количество пропусков, но худшую стилистическую оценку.

arxiv arXiv cs.CL · 2 д назад

ViRGo: Адаптивное маршрутизация для визуального поиска и глобальной перцепции

ViRGo представляет лёгкую архитектуру, которая адаптирует визуальный поиск в зависимости от масштаба объекта. Она использует внутреннюю локализацию и семантическую уверенность для маршрутизации между глобальной перцепцией, поисковыми операциями на участках и поисковыми операциями на основе внимания, улучшая баланс между точностью и эффективностью без дополнительных вычислений.

arxiv arXiv cs.CL · 2 д назад

π-RAG: Исполнение поиска за счёт семантической квантования и трансцендентного адресирования

π-RAG разделяет ЛЛМ от чувствительных данных, используя цифры π как неизменяемый и недоступный источник энтропии. Вводится слой семантической квантования, который отображает пользовательские вводы на центроиды намерений, затем с помощью криптографической соли генерируется детерминированный сдвиг, указывающий на стандартизированные пакеты, обеспечивая независимый поиск и математические гарантии конфиденциальности данных.

arxiv arXiv cs.CL · 2 д назад

Согласование темы с временной меткой за счёт выбора доказательств

Новый метод улучшает согласование темы с временной меткой в транскриптах совещаний за счёт выбора временных доказательств, а не генерации временных меток. На 420 запросах из транскриптов муниципальных совещаний он повышает Recall@5 до 50,0%, снижает MAE до 761,0 секунды и увеличивает количество разборяемых выходов с 373 до 419, что показывает важность качества поиска и дизайна выходных данных.

arxiv arXiv cs.CL · 2 д назад

PeerCheck: Улучшение академических отзывов, генерируемых ЛЛМ

PeerCheck анализирует различия между отзывами ЛЛМ и людьми, и находит, что ЛЛМ фокусируются на теории, в то время как люди приоритизируют методологию и эксперименты. Фреймворк использует инженерные подходы к запросам, такие как Chain-of-Thought и генерация с использованием ретриевирования, при этом Chain-of-Thought значительно улучшает качество отзывов, хотя RAG вводит неожиданный «парадокс», который иногда снижает качество.

arxiv arXiv cs.CL · 2 д назад

Налог на токены эпистемической точности в искусственном интеллекте, основанном на документах

Исследование сравнивает методы ретриев-аугментированного генерирования (RAG) и долгих контекстных запросов в искусственном интеллекте, основанном на документах. Долгий контекстный запрос обеспечивает более высокую эпистемическую точность — 73,1% против 65,4% — но с расходом на запрос в 26 раз больше, что подчеркивает значительный налог на токены для более широкого доступа к доказательствам.

arxiv arXiv cs.CL · 2 д назад

Исследование устранения компонентов агентного RAG с использованием локальной модели 7B

Контролируемое исследование устранения оценивает компоненты агентного RAG с использованием локальной модели 7B на датасете HotpotQA. Фиксированный гибридный поиск превосходит адаптивную маршрутизацию на 1,8 EM и 1,9 F1, в то время как два итерации поиска захватывают 95% прироста, полученного при пяти итерациях. Разделение запроса и переранжирование с использованием кросс-энкодера показывают статистически значимые, но меньшие улучшения.

arxiv arXiv cs.AI · 6 д назад

AI Экономист-агент: Кадровая аналитическая платформа в области экономики

AI Экономист-агент использует RAG, графы знаний и ЛЛМ для генерации экономических историй, основанных на теории и данных. Он обеспечивает аналитику на основе моделей, извлечение доказательств и генерацию отчетов, гарантируя экономическую согласованность и отслеживаемость через явные вычисления моделей.

arxiv arXiv cs.LG · 6 д назад

AI Экономист-агент: Фреймворк анализа на основе моделей

AI Экономист-агент использует RAG, графы знаний и ЛЛМ для генерации экономических нарративов, основанных на теории и данных. Он обеспечивает анализ на основе моделей, извлечение доказательств и генерацию отчетов, гарантируя экономическую целостность и отслеживаемость за счет явных вычислений моделей.

arxiv arXiv cs.LG · 6 д назад

Обучение, извлечение или оба варианта? Прямое сравнение по статутарной цитате в отношении закона о жилищных договорах в Онтарио

Четырехканальное сравнение показывает, что извлечение необходимо для точной статутарной цитаты в соответствии с Законом о жилищных договорах в Онтарио. Гибридная модель SFT+RAG достигает точности 0,481 с нулевыми халлюцинациями, превосходя базовые и модели только с SFT, и соответствует результатам системы, использующей более крупные и специализированные модели, без необходимости в большом объеме данных или более крупных наборах для обучения. Результаты основаны на небольшом, человеко-проверенном реальном наборе данных и являются предварительными.

arxiv arXiv cs.CL · 6 д назад

Фреймворк мультиагентной транзакционной памяти

Фреймворк мультиагентной транзакционной памяти (MATM) обеспечивает хранение и извлечение траекторий, сгенерированных агентами на уровне популяции. Он позволяет производящим агентам делиться процедурными знаниями с потребляющими агентами, что улучшает выполнение задач и снижает количество шагов взаимодействия в интерактивных средах, таких как ALFWorld и WebArena, без координации или совместной тренировки.

arxiv arXiv cs.CL · 6 д назад

Стабилизация намерения инструмента в потоковом RAG

Исследование оценивает стабилизацию намерения инструмента в потоковом RAG, определяя момент, когда спекулятивные запросы на инструменты сходятся к правильным ответам. На бенчмарке CRAG 73,9% запросов позволяют значительное скрытие задержки, при этом ранняя стабилизация наблюдается в вопросах с прямым извлекаемым доказательством. Тип вопроса значительно предсказывает раннюю или позднюю стабилизацию, что позволяет определить, когда спекулятивные триггеры оказываются эффективными.