Retrieval & RAG
arxiv arXiv cs.AI · 1 д назад

Глубокое обучение для распознавания жестов и перевода на индийские языки

Двухэтапная система глубокого обучения классифицирует видеофрагменты индийского жестового языка на английские слова с использованием настроенного модели VideoMAE и переводит их на хинди, телугу и бенгали с помощью модели NLLB-200. Система достигает точности 99% на обучении и 78% на валидации на наборе из 13 классов и 197 видеофрагментов, при равномерных видеофрагментах размером 16 кадров и разрешением 22-224, и включает демонстрацию на Streamlit для загрузки пользователем видео с анализом по классам и идентификацией неисправностей.

media r/LocalLLaMA · 1 д назад

Unlimited-OCR теперь доступен на ModelScope

Unlimited-OCR, многозадачный OCR-модель на 3,3 миллиарда параметров, доступен на ModelScope. Поддерживается одноразовая обработка для одиночных изображений, многостраничных документов и PDF-файлов, полная обработка документов и длина вывода до 32K. Модель включает базовый и режим gundam для различных размещений документов и поддерживает инференс на основе Transformers с потоковым взаимодействием, совместимым с OpenAI.

arxiv arXiv cs.CL · 2 д назад

MMed-Bench-IR: Мультималярный медицинский бенчмарк по поиску

MMed-Bench-IR представляет гетерогенный бенчмарк для мультималярного медицинского поиска информации на шести языках. Он оценивает межязыковую синхронизацию, дифференциацию концепций и извлечение доказательств через три различных задания без пересекающихся концепций или запросов. Оценка показывает значительное падение межязыковой производительности, при переходе на японский язык английские биомедицинские энкодеры снижаются с 0.818 до 0.056 nDCG@10, что подчеркивает ограничения, не обнаруженные в бенчмарках, основанных только на английском языке.

arxiv arXiv cs.CL · 2 д назад

Анонимизация RAG за счёт семантической переписки многоагентной системы

Многоагентная система очищает извлечённый контент, удаляя чувствительные идентификаторы с помощью семантической переписки, что снижает утечку приватности в целевых атаках. Система сохраняет высокую контекстуальную точность с показателем BLEU-1 в 0,122, превосходя показатель SAGE в 0,117, и работает как асинхронный предварительный этап без добавления задержки к онлайн-инференсу.

media r/LocalLLaMA · 2 д назад

Бенчмарк LLM в медицинской синтаксисе: пропуски превосходят выдумки

Бенчмарк 8 LLM на 300 синтетических диалогов врачи-пациенты выявил 12 высококритичных выдумок и 520 клинически значимых пропусков. Пропуски были значительно чаще, чем выдумки: DeepSeek показал отличные качества в стилистике и стоимости, но упустил множество фактов о безопасности, в то время как Claude Opus имел наименьшее количество пропусков, но худшую стилистическую оценку.

media r/LocalLLaMA · 2 д назад

Сравнение Docling, Liteparse, MinerU и Unstructured для обработки документов на локальной инфраструктуре

Вуз, стремящийся к обработке документов на локальной инфраструктуре для академических процессов, должен использовать локальные парсеры из-за строгих политик управления данными, запрещающих использование облачных API. Пользователь оценивает Docling, Liteparse, MinerU и Unstructured, отмечая, что Docling отлично справляется с сложными разметками и имеет лицензию Apache 2.0, но работает медленнее; Liteparse обеспечивает хорошую производительность при обработке печатных документов с использованием Tesseract OCR; MinerU использует PaddleOCR и хорошо справляется с документами на французском языке, несмотря на более длительную настройку; Unstructured поддерживает множество форматов, включая DOCX и PPTX. Решение должно обеспечивать повторяющуюся и стабильную обработку эволюционирующих PDF-документов с минимальными изменениями форматирования.

media r/LocalLLaMA · 2 д назад

Почему Gemma 4 26b не упоминается чаще?

Пользователи отмечают отсутствие обсуждений вокруг Gemma 4 26b, несмотря на его потенциальную применимость для задач персонального ассистента и RAG на одиночном видеокарте 3090. Модель считается сильным кандидатом для всехобъемлющих локальных приложений ИИ, хотя получает меньше внимания по сравнению с Qwen3.6 или Gemma4 31b.

lab Mistral AI News · 2 д назад

Mistral выпустил OCR 4 с поддержкой нескольких языков и структурированным выводом

Mistral OCR 4 вводит границы прямоугольников, классификацию блоков и внутренние оценки достоверности для 170 языков в 10 группах языков. Он превосходит ведущие системы распознавания текста в оценках предпочтений людей с коэффициентом выигрыша 72% и достигает наивысшей оценки на OlmOCRBench (85,20), при этом обеспечивая развертывание в одном контейнере и поддержку корпоративных сценариев, таких как RAG и ввод документов.

arxiv arXiv cs.CL · 2 д назад

ViRGo: Адаптивное маршрутизация для визуального поиска и глобальной перцепции

ViRGo представляет лёгкую архитектуру, которая адаптирует визуальный поиск в зависимости от масштаба объекта. Она использует внутреннюю локализацию и семантическую уверенность для маршрутизации между глобальной перцепцией, поисковыми операциями на участках и поисковыми операциями на основе внимания, улучшая баланс между точностью и эффективностью без дополнительных вычислений.

arxiv arXiv cs.CL · 2 д назад

π-RAG: Исполнение поиска за счёт семантической квантования и трансцендентного адресирования

π-RAG разделяет ЛЛМ от чувствительных данных, используя цифры π как неизменяемый и недоступный источник энтропии. Вводится слой семантической квантования, который отображает пользовательские вводы на центроиды намерений, затем с помощью криптографической соли генерируется детерминированный сдвиг, указывающий на стандартизированные пакеты, обеспечивая независимый поиск и математические гарантии конфиденциальности данных.

arxiv arXiv cs.CL · 2 д назад

Согласование темы с временной меткой за счёт выбора доказательств

Новый метод улучшает согласование темы с временной меткой в транскриптах совещаний за счёт выбора временных доказательств, а не генерации временных меток. На 420 запросах из транскриптов муниципальных совещаний он повышает Recall@5 до 50,0%, снижает MAE до 761,0 секунды и увеличивает количество разборяемых выходов с 373 до 419, что показывает важность качества поиска и дизайна выходных данных.

arxiv arXiv cs.CL · 3 д назад

PeerCheck: Улучшение академических отзывов, генерируемых ЛЛМ

PeerCheck анализирует различия между отзывами ЛЛМ и людьми, и находит, что ЛЛМ фокусируются на теории, в то время как люди приоритизируют методологию и эксперименты. Фреймворк использует инженерные подходы к запросам, такие как Chain-of-Thought и генерация с использованием ретриевирования, при этом Chain-of-Thought значительно улучшает качество отзывов, хотя RAG вводит неожиданный «парадокс», который иногда снижает качество.

arxiv arXiv cs.CL · 3 д назад

Налог на токены эпистемической точности в искусственном интеллекте, основанном на документах

Исследование сравнивает методы ретриев-аугментированного генерирования (RAG) и долгих контекстных запросов в искусственном интеллекте, основанном на документах. Долгий контекстный запрос обеспечивает более высокую эпистемическую точность — 73,1% против 65,4% — но с расходом на запрос в 26 раз больше, что подчеркивает значительный налог на токены для более широкого доступа к доказательствам.

arxiv arXiv cs.CL · 3 д назад

Исследование устранения компонентов агентного RAG с использованием локальной модели 7B

Контролируемое исследование устранения оценивает компоненты агентного RAG с использованием локальной модели 7B на датасете HotpotQA. Фиксированный гибридный поиск превосходит адаптивную маршрутизацию на 1,8 EM и 1,9 F1, в то время как два итерации поиска захватывают 95% прироста, полученного при пяти итерациях. Разделение запроса и переранжирование с использованием кросс-энкодера показывают статистически значимые, но меньшие улучшения.

media r/LocalLLaMA · 5 д назад

semantic-memory: локальная база знаний с типизированными графовыми рёбрами

semantic-memory — это локальная база знаний на языке Rust, которая объединяет поисковые методы BM25, векторного поиска и синтеза по рекурсивному ранжированию с SQLite. В ней реализованы типизированные графовые рёбра для причинных, временных и семантических связей, отслеживание происхождения, би-временная хранение и адаптивное направление запросов, поддерживая 18 инструментов MCP для ИИ-агентов. Все компоненты работают локально без зависимостей от облака, ключей API или телеметрии.

media r/LocalLLaMA · 5 д назад

Помощь с локальной системой RAG для документов (хранилище + ввод + запрос + выделение)

Пользователь разрабатывает локальную, оффлайн-систему поиска документов и интеграции с LLM, включающую функции хранения, ввода, запроса и выделения. Он просит советы по выбору векторных баз данных (например, pgvector в Postgres по сравнению с Qdrant), возможности использования GraphRAG в оффлайн-режиме и открытых инструментов для выделения документов с цитатами.

media r/LocalLLaMA · 6 д назад

Как настроить поиск с помощью моделей ИИ

Пользователь спрашивает, как интегрировать модель Gemma 4 12B с возможностями поиска, используя самовыполняемые ИИ-модели. Он упоминает попытки использования openwebui, который имеет проблемы с поисковыми системами, такими как DDG, и ищет альтернативы, избегающие использования ключей API от Brave или Google.

arxiv arXiv cs.AI · 6 д назад

AI Экономист-агент: Кадровая аналитическая платформа в области экономики

AI Экономист-агент использует RAG, графы знаний и ЛЛМ для генерации экономических историй, основанных на теории и данных. Он обеспечивает аналитику на основе моделей, извлечение доказательств и генерацию отчетов, гарантируя экономическую согласованность и отслеживаемость через явные вычисления моделей.

arxiv arXiv cs.LG · 6 д назад

AI Экономист-агент: Фреймворк анализа на основе моделей

AI Экономист-агент использует RAG, графы знаний и ЛЛМ для генерации экономических нарративов, основанных на теории и данных. Он обеспечивает анализ на основе моделей, извлечение доказательств и генерацию отчетов, гарантируя экономическую целостность и отслеживаемость за счет явных вычислений моделей.