Retrieval & RAG — korshunov.ai

Retrieval & RAG Страница 1 / 3

Безопасность и конфиденциальность в генерации с дополнением извлечения: архитектуры, угрозы, методы защиты и направления будущих исследований

В данном обзоре рассматриваются проблемы безопасности и конфиденциальности, присущие системам генерации с дополнением извлечения (RAG), в рамках централизованных, локальных (on-device), федеративных и гибридных парадигм. Предлагается единая таксономия поверхностей угроз, охватывающая этапы извлечения, формирования контекста и генерации. Анализ включает такие классы атак, как вывод принадлежности к набору данных (membership inference), вывод структуры индекса (index inference), отравление данных, утечка градиентов и сговор. Выявляются риски раскрытия конфиденциальной информации в индексах извлечения, журналах запросов, процессах формирования контекста и федеративных обновлениях. Особое внимание уделяется враждебному манипулированию базами знаний как ключевому фактору, подрывающему доверие к сгенерированным результатам. В работе рассматриваются архитектурные, алгоритмические и криптографические методы защиты, а также компромиссы между конфиденциальностью и полезностью. Наконец, формулируются открытые исследовательские задачи для создания надежных и устойчивых систем RAG.

arxiv arXiv cs.CL · 1 ч назад Live

Фреймворк оценивает, когда необходимы GraphRAG и агентный RAG

Авторы представляют фреймворк для оценки и сравнения обычного, GraphRAG, модульного и агентного Retrieval-Augmented Generation (RAG) на полуструктурированных базах знаний. Они реализуют девять стандартизированных сценариев, охватывающих простой поиск документов до сложной гибридной интеграции текста и графа, а также агентное многошаговое планирование. Представлен новый метод контекстной инженерии для решения проблем переполнения памяти в продвинутых вариантах RAG за счет новых представлений и дизайна агентного цикла. Эта оптимизация обеспечивает снижение использования токенов на 19–53% при эффективном управлении извлечением информации. Дальнейший анализ выявляет разрыв между извлечением и генерацией, при котором расширенное извлечение не приводит к пропорциональному улучшению качества генерации. Исследование предполагает, что текущие метрики, ориентированные на извлечение, могут преувеличивать преимущества продвинутых техник извлечения информации. Эти основанные на данных инсайты призваны направлять разработку готовых к производству интеллектуальных систем RAG.

arxiv arXiv cs.CL · 1 ч назад Live

TRACE: Легковесное обнаружение отравления корпуса в RAG с помощью атрибуции влияния токенов

Системы генерации с дополнением извлечения (RAG) сталкиваются со значительными рисками, связанными с атаками отравления корпуса, которые манипулируют выводами через вредоносные документы. Существующие методы обнаружения часто требуют вспомогательных классификаторов или дополнительной проверки с помощью больших языковых моделей (LLM), что создает существенные вычислительные накладные расходы. Чтобы решить эту проблему, исследователи представили TRACE — легковесную систему, которая выявляет отравление путем отслеживания токенов, связанных с ответом, через атрибуцию влияния. Система сначала обнаруживает повторяющиеся ключевые слова с высоким влиянием среди извлеченных документов, чтобы обозначить потенциальные угрозы. Затем она выполняет вторичную верификацию для подтверждения конкретного влияния этих токенов на предсказания модели. Эксперименты, проведенные на трех наборах данных для оценки качества ответов (QA) и шести больших языковых моделях, демонстрируют высокую эффективность обнаружения системы TRACE. Кроме того, TRACE успешно выявляет целевые ответы, указанные атакующим, в процессе верификации.

arxiv arXiv cs.CL · 2 ч назад

Как большие языковые модели формируют репутацию брендов в разных языках и рынках

В данном исследовании анализируются источники цитирования, используемые большими языковыми моделями при ответах на вопросы о брендах, с акцентом на лежащие в основе веб-ссылки, а не только на сгенерированный текст. Исследователи объединили три набора данных Rankfor.AI для изучения 167 551 URL-привязанной цитаты, относящейся к 128 брендам в 12 домашних рынках и на 13 языках. Анализ показывает, что ИИ опирается на ответы о брендах преимущественно на сторонние источники: 85,7% ссылок ведут на сайты, не принадлежащие бренду, по сравнению лишь с 14,3% для доменов, находящихся в собственности бренда. База источников сильно сконцентрирована и подчиняется закону Ципфа: 80% цитат происходят примерно от 18% доменов. Wikipedia становится доминирующим ссылочным ресурсом, являясь самым цитируемым доменом в 11 из 12 изученных языков. Единственным исключением является литовский язык, где деловая газета vz.lt немного опережает Wikipedia с долей 4,38%. Кроме того, состав источников демонстрирует вариации, специфичные для рынка: например, YouTube является самым цитируемым доменом для польских национальных брендов, а HR-порталы предоставляют больше ссылок, чем польская версия Wikipedia.

media Hugging Face Forums · 6 ч назад

Онтологическая инверсия: переключение эмоциональных концепций LLM с помощью отрицательного градиента

Автор представляет «онтологическую инверсию» — технику, предназначенную для расширения однонаправленной природы вывода больших языковых моделей. Этот метод позволяет моделям улавливать тонкие, многогранные концепции, такие как воспоминания, вызывающие одновременно печаль и радость. Подход был разработан путем применения коэффициента отрицательного градиента при проходах в архитектуре управления Niodoo. Он решает распространенное ограничение, при котором LLM переобучаются на единственные эмоциональные метки при запросе личных воспоминаний. Инвертируя концепции аналогично инволюции в физике, техника позволяет моделям менять эмоциональные состояния, например, превращать печальные воспоминания в радостные. Работа опубликована в репозитории GitHub под названием 'ontological-inversion' пользователем Ruffian-L.

arxiv arXiv cs.AI · 11 ч назад

ARIA: Фреймворк с учетом причинности для восстановления логического мышления в ЛЛМ

ARIA решает проблему контекстуального туннелирования в ЛЛМ за счет условного использования знаний на уровне механической полноты. Оно использует трехуровневую цепочку для причинного мышления, передачи с физической интерпретацией и параметрического резерва, и улучшает открытие материалов за счет проверяемого, физически обоснованного мышления.

arxiv arXiv cs.AI · 13 ч назад

Hi-Seg: Коллаборация человека и ИИ для сегментации пульmonary узлов

Hi-Seg, рамка с участием человека, построенная на SAM, достигает среднего значения Dice почти на 85% при сегментации пульmonary узлов. Он превосходит пять передовых моделей глубокого обучения и 13 вариантов SAM, при этом непрофессиональные аннотаторы достигают результатов, равных результатам младших медицинских студентов, что снижает нагрузку на клиницистов и позволяет обеспечивать масштабную аннотацию.

arxiv arXiv cs.AI · 14 ч назад

Предварительная обработка на стороне запроса повышает точность Edge AI

Структурированный фреймворк запроса повышает точность локальных моделей языковой модели при мониторинге окружающей среды за счет преобразования исходных данных сенсоров в обогащенные текстовые представления. Оценки на датасетах внутри и снаружи помещений показывают, что точность локальных моделей увеличивается с 50,9% до 81,7% внутри помещения и с 63,7% до 79,3% снаружи, при этом поддерживается низкая задержка в размере почти 0,22 секунды в режиме без цепочки мыслей.

arxiv arXiv cs.AI · 15 ч назад

Глубокое обучение для распознавания жестов и перевода на индийские языки

Двухэтапная система глубокого обучения классифицирует видеофрагменты индийского жестового языка на английские слова с использованием настроенного модели VideoMAE и переводит их на хинди, телугу и бенгали с помощью модели NLLB-200. Система достигает точности 99% на обучении и 78% на валидации на наборе из 13 классов и 197 видеофрагментов, при равномерных видеофрагментах размером 16 кадров и разрешением 22-224, и включает демонстрацию на Streamlit для загрузки пользователем видео с анализом по классам и идентификацией неисправностей.

media r/LocalLLaMA · 21 ч назад

Unlimited-OCR теперь доступен на ModelScope

Unlimited-OCR, многозадачный OCR-модель на 3,3 миллиарда параметров, доступен на ModelScope. Поддерживается одноразовая обработка для одиночных изображений, многостраничных документов и PDF-файлов, полная обработка документов и длина вывода до 32K. Модель включает базовый и режим gundam для различных размещений документов и поддерживает инференс на основе Transformers с потоковым взаимодействием, совместимым с OpenAI.

arxiv arXiv cs.CL · 1 д назад

MMed-Bench-IR: Мультималярный медицинский бенчмарк по поиску

MMed-Bench-IR представляет гетерогенный бенчмарк для мультималярного медицинского поиска информации на шести языках. Он оценивает межязыковую синхронизацию, дифференциацию концепций и извлечение доказательств через три различных задания без пересекающихся концепций или запросов. Оценка показывает значительное падение межязыковой производительности, при переходе на японский язык английские биомедицинские энкодеры снижаются с 0.818 до 0.056 nDCG@10, что подчеркивает ограничения, не обнаруженные в бенчмарках, основанных только на английском языке.

arxiv arXiv cs.CL · 1 д назад

Анонимизация RAG за счёт семантической переписки многоагентной системы

Многоагентная система очищает извлечённый контент, удаляя чувствительные идентификаторы с помощью семантической переписки, что снижает утечку приватности в целевых атаках. Система сохраняет высокую контекстуальную точность с показателем BLEU-1 в 0,122, превосходя показатель SAGE в 0,117, и работает как асинхронный предварительный этап без добавления задержки к онлайн-инференсу.

media Hugging Face Forums · 1 д назад

Токены Spaces перестали работать после обновления

Пользователи сообщают, что токены Spaces больше не функционируют после недавнего обновления. Файлы, генерируемые пользователем, больше не сохраняются, что нарушает рабочий процесс и выполнение модели.

media r/LocalLLaMA · 1 д назад

Бенчмарк LLM в медицинской синтаксисе: пропуски превосходят выдумки

Бенчмарк 8 LLM на 300 синтетических диалогов врачи-пациенты выявил 12 высококритичных выдумок и 520 клинически значимых пропусков. Пропуски были значительно чаще, чем выдумки: DeepSeek показал отличные качества в стилистике и стоимости, но упустил множество фактов о безопасности, в то время как Claude Opus имел наименьшее количество пропусков, но худшую стилистическую оценку.

media r/LocalLLaMA · 1 д назад

Сравнение Docling, Liteparse, MinerU и Unstructured для обработки документов на локальной инфраструктуре

Вуз, стремящийся к обработке документов на локальной инфраструктуре для академических процессов, должен использовать локальные парсеры из-за строгих политик управления данными, запрещающих использование облачных API. Пользователь оценивает Docling, Liteparse, MinerU и Unstructured, отмечая, что Docling отлично справляется с сложными разметками и имеет лицензию Apache 2.0, но работает медленнее; Liteparse обеспечивает хорошую производительность при обработке печатных документов с использованием Tesseract OCR; MinerU использует PaddleOCR и хорошо справляется с документами на французском языке, несмотря на более длительную настройку; Unstructured поддерживает множество форматов, включая DOCX и PPTX. Решение должно обеспечивать повторяющуюся и стабильную обработку эволюционирующих PDF-документов с минимальными изменениями форматирования.

media r/LocalLLaMA · 2 д назад

Почему Gemma 4 26b не упоминается чаще?

Пользователи отмечают отсутствие обсуждений вокруг Gemma 4 26b, несмотря на его потенциальную применимость для задач персонального ассистента и RAG на одиночном видеокарте 3090. Модель считается сильным кандидатом для всехобъемлющих локальных приложений ИИ, хотя получает меньше внимания по сравнению с Qwen3.6 или Gemma4 31b.

lab Mistral AI News · 2 д назад

Mistral выпустил OCR 4 с поддержкой нескольких языков и структурированным выводом

Mistral OCR 4 вводит границы прямоугольников, классификацию блоков и внутренние оценки достоверности для 170 языков в 10 группах языков. Он превосходит ведущие системы распознавания текста в оценках предпочтений людей с коэффициентом выигрыша 72% и достигает наивысшей оценки на OlmOCRBench (85,20), при этом обеспечивая развертывание в одном контейнере и поддержку корпоративных сценариев, таких как RAG и ввод документов.

arxiv arXiv cs.CL · 2 д назад

ViRGo: Адаптивное маршрутизация для визуального поиска и глобальной перцепции

ViRGo представляет лёгкую архитектуру, которая адаптирует визуальный поиск в зависимости от масштаба объекта. Она использует внутреннюю локализацию и семантическую уверенность для маршрутизации между глобальной перцепцией, поисковыми операциями на участках и поисковыми операциями на основе внимания, улучшая баланс между точностью и эффективностью без дополнительных вычислений.

arxiv arXiv cs.CL · 2 д назад

π-RAG: Исполнение поиска за счёт семантической квантования и трансцендентного адресирования

π-RAG разделяет ЛЛМ от чувствительных данных, используя цифры π как неизменяемый и недоступный источник энтропии. Вводится слой семантической квантования, который отображает пользовательские вводы на центроиды намерений, затем с помощью криптографической соли генерируется детерминированный сдвиг, указывающий на стандартизированные пакеты, обеспечивая независимый поиск и математические гарантии конфиденциальности данных.

arxiv arXiv cs.CL · 2 д назад

Согласование темы с временной меткой за счёт выбора доказательств

Новый метод улучшает согласование темы с временной меткой в транскриптах совещаний за счёт выбора временных доказательств, а не генерации временных меток. На 420 запросах из транскриптов муниципальных совещаний он повышает Recall@5 до 50,0%, снижает MAE до 761,0 секунды и увеличивает количество разборяемых выходов с 373 до 419, что показывает важность качества поиска и дизайна выходных данных.