Retrieval & RAG
media r/LocalLLaMA · 2 д назад

Почему Gemma 4 26b не упоминается чаще?

Пользователи отмечают отсутствие обсуждений вокруг Gemma 4 26b, несмотря на его потенциальную применимость для задач персонального ассистента и RAG на одиночном видеокарте 3090. Модель считается сильным кандидатом для всехобъемлющих локальных приложений ИИ, хотя получает меньше внимания по сравнению с Qwen3.6 или Gemma4 31b.

lab Mistral AI News · 2 д назад

Mistral выпустил OCR 4 с поддержкой нескольких языков и структурированным выводом

Mistral OCR 4 вводит границы прямоугольников, классификацию блоков и внутренние оценки достоверности для 170 языков в 10 группах языков. Он превосходит ведущие системы распознавания текста в оценках предпочтений людей с коэффициентом выигрыша 72% и достигает наивысшей оценки на OlmOCRBench (85,20), при этом обеспечивая развертывание в одном контейнере и поддержку корпоративных сценариев, таких как RAG и ввод документов.

arxiv arXiv cs.CL · 2 д назад

ViRGo: Адаптивное маршрутизация для визуального поиска и глобальной перцепции

ViRGo представляет лёгкую архитектуру, которая адаптирует визуальный поиск в зависимости от масштаба объекта. Она использует внутреннюю локализацию и семантическую уверенность для маршрутизации между глобальной перцепцией, поисковыми операциями на участках и поисковыми операциями на основе внимания, улучшая баланс между точностью и эффективностью без дополнительных вычислений.

arxiv arXiv cs.CL · 2 д назад

π-RAG: Исполнение поиска за счёт семантической квантования и трансцендентного адресирования

π-RAG разделяет ЛЛМ от чувствительных данных, используя цифры π как неизменяемый и недоступный источник энтропии. Вводится слой семантической квантования, который отображает пользовательские вводы на центроиды намерений, затем с помощью криптографической соли генерируется детерминированный сдвиг, указывающий на стандартизированные пакеты, обеспечивая независимый поиск и математические гарантии конфиденциальности данных.

arxiv arXiv cs.CL · 2 д назад

Согласование темы с временной меткой за счёт выбора доказательств

Новый метод улучшает согласование темы с временной меткой в транскриптах совещаний за счёт выбора временных доказательств, а не генерации временных меток. На 420 запросах из транскриптов муниципальных совещаний он повышает Recall@5 до 50,0%, снижает MAE до 761,0 секунды и увеличивает количество разборяемых выходов с 373 до 419, что показывает важность качества поиска и дизайна выходных данных.

arxiv arXiv cs.CL · 2 д назад

PeerCheck: Улучшение академических отзывов, генерируемых ЛЛМ

PeerCheck анализирует различия между отзывами ЛЛМ и людьми, и находит, что ЛЛМ фокусируются на теории, в то время как люди приоритизируют методологию и эксперименты. Фреймворк использует инженерные подходы к запросам, такие как Chain-of-Thought и генерация с использованием ретриевирования, при этом Chain-of-Thought значительно улучшает качество отзывов, хотя RAG вводит неожиданный «парадокс», который иногда снижает качество.

arxiv arXiv cs.CL · 2 д назад

Налог на токены эпистемической точности в искусственном интеллекте, основанном на документах

Исследование сравнивает методы ретриев-аугментированного генерирования (RAG) и долгих контекстных запросов в искусственном интеллекте, основанном на документах. Долгий контекстный запрос обеспечивает более высокую эпистемическую точность — 73,1% против 65,4% — но с расходом на запрос в 26 раз больше, что подчеркивает значительный налог на токены для более широкого доступа к доказательствам.

arxiv arXiv cs.CL · 2 д назад

Исследование устранения компонентов агентного RAG с использованием локальной модели 7B

Контролируемое исследование устранения оценивает компоненты агентного RAG с использованием локальной модели 7B на датасете HotpotQA. Фиксированный гибридный поиск превосходит адаптивную маршрутизацию на 1,8 EM и 1,9 F1, в то время как два итерации поиска захватывают 95% прироста, полученного при пяти итерациях. Разделение запроса и переранжирование с использованием кросс-энкодера показывают статистически значимые, но меньшие улучшения.

media r/LocalLLaMA · 4 д назад

semantic-memory: локальная база знаний с типизированными графовыми рёбрами

semantic-memory — это локальная база знаний на языке Rust, которая объединяет поисковые методы BM25, векторного поиска и синтеза по рекурсивному ранжированию с SQLite. В ней реализованы типизированные графовые рёбра для причинных, временных и семантических связей, отслеживание происхождения, би-временная хранение и адаптивное направление запросов, поддерживая 18 инструментов MCP для ИИ-агентов. Все компоненты работают локально без зависимостей от облака, ключей API или телеметрии.

media r/LocalLLaMA · 5 д назад

Помощь с локальной системой RAG для документов (хранилище + ввод + запрос + выделение)

Пользователь разрабатывает локальную, оффлайн-систему поиска документов и интеграции с LLM, включающую функции хранения, ввода, запроса и выделения. Он просит советы по выбору векторных баз данных (например, pgvector в Postgres по сравнению с Qdrant), возможности использования GraphRAG в оффлайн-режиме и открытых инструментов для выделения документов с цитатами.

media r/LocalLLaMA · 5 д назад

Как настроить поиск с помощью моделей ИИ

Пользователь спрашивает, как интегрировать модель Gemma 4 12B с возможностями поиска, используя самовыполняемые ИИ-модели. Он упоминает попытки использования openwebui, который имеет проблемы с поисковыми системами, такими как DDG, и ищет альтернативы, избегающие использования ключей API от Brave или Google.

arxiv arXiv cs.AI · 6 д назад

AI Экономист-агент: Кадровая аналитическая платформа в области экономики

AI Экономист-агент использует RAG, графы знаний и ЛЛМ для генерации экономических историй, основанных на теории и данных. Он обеспечивает аналитику на основе моделей, извлечение доказательств и генерацию отчетов, гарантируя экономическую согласованность и отслеживаемость через явные вычисления моделей.

arxiv arXiv cs.LG · 6 д назад

AI Экономист-агент: Фреймворк анализа на основе моделей

AI Экономист-агент использует RAG, графы знаний и ЛЛМ для генерации экономических нарративов, основанных на теории и данных. Он обеспечивает анализ на основе моделей, извлечение доказательств и генерацию отчетов, гарантируя экономическую целостность и отслеживаемость за счет явных вычислений моделей.

arxiv arXiv cs.LG · 6 д назад

Обучение, извлечение или оба варианта? Прямое сравнение по статутарной цитате в отношении закона о жилищных договорах в Онтарио

Четырехканальное сравнение показывает, что извлечение необходимо для точной статутарной цитаты в соответствии с Законом о жилищных договорах в Онтарио. Гибридная модель SFT+RAG достигает точности 0,481 с нулевыми халлюцинациями, превосходя базовые и модели только с SFT, и соответствует результатам системы, использующей более крупные и специализированные модели, без необходимости в большом объеме данных или более крупных наборах для обучения. Результаты основаны на небольшом, человеко-проверенном реальном наборе данных и являются предварительными.

arxiv arXiv cs.CL · 6 д назад

Фреймворк мультиагентной транзакционной памяти

Фреймворк мультиагентной транзакционной памяти (MATM) обеспечивает хранение и извлечение траекторий, сгенерированных агентами на уровне популяции. Он позволяет производящим агентам делиться процедурными знаниями с потребляющими агентами, что улучшает выполнение задач и снижает количество шагов взаимодействия в интерактивных средах, таких как ALFWorld и WebArena, без координации или совместной тренировки.

arxiv arXiv cs.CL · 6 д назад

Стабилизация намерения инструмента в потоковом RAG

Исследование оценивает стабилизацию намерения инструмента в потоковом RAG, определяя момент, когда спекулятивные запросы на инструменты сходятся к правильным ответам. На бенчмарке CRAG 73,9% запросов позволяют значительное скрытие задержки, при этом ранняя стабилизация наблюдается в вопросах с прямым извлекаемым доказательством. Тип вопроса значительно предсказывает раннюю или позднюю стабилизацию, что позволяет определить, когда спекулятивные триггеры оказываются эффективными.

arxiv arXiv cs.CL · 6 д назад

CATCH-ME, если вы RAG: Мультимедийный датасет для противодействия ненависти и недостоверной информации

CATCH-ME представляет первый масштабный мультимедийный датасет контекстуально аннотированных мульти-переводных диалогов противодействия ненависти и недостоверной информации. Датасет охватывает пять языков и сосредоточен на семи маргинализированных группах, диалоги основаны на проверенных источниках фактической проверки и включают аннотации на уровне документов и фрагментов для систем RAG.

media r/LocalLLaMA · 7 д назад

LFM2.5-Embedding-35-0M и LFM2.5-ColBERT-350M были выпущены

LFM2.5-Embedding-350M — это плотный двойной кодировщик, обеспечивающий быструю мультиязычную ретриев-операцию с одним вектором на документ, достигающий наилучшей точности для своего размера и скорость инференса, сравнимой с более малыми моделями. LFM2.5-ColBERT-350M — это ретриев-модель с поздним взаимодействием, обеспечивающий наилучшую мультиязычную точность, позволяющий проводить межязычную ретриев-операцию, храня один вектор на токен и поддерживая ретриев на нескольких языках с высокой точностью. Оба моделя являются разработанными как прямые замены для существующих пайплайнов RAG.

arxiv arXiv cs.CL · 7 д назад

PhysAssistBench оценивает LLMs в взаимодействии доктор-пациент-ЭХР

PhysAssistBench представляет бенчмарк для интерактивной помощи доктору-пациенту-ЭХР с использованием реальных случаев MIMIC-IV. В нём содержатся 1296 ручно проверенных и подтверждённых врачами диалогов, и показано, что текущие LLMs испытывают трудности при координации клинических знаний, коммуникации и взаимодействия с системой ЭХР.

arxiv arXiv cs.CL · 7 д назад

DICE улучшает поиск в длинных документах с агрегацией доказательств по кускам

DICE, метод без обучения, разделяет длинные документы на куски, кодирует их независимо и агрегирует результаты в один вектор. Он снижает индекс размытия доказательств в 92,8% случаев на LongEmbed, что значительно улучшает производительность поиска для фрагментов длиной более 4k токенов при четырёх основах.