RAPS-DA: Режимно-ориентированная специализация партнёров для надёжного RAG

Авторы предлагают RAPS-DA, режимно-ориентированную фреймворк специализации партнёров, предназначенный для устранения хрупкости Retrieval-augmented generation (RAG) при конфликте извлечённого контекста с параметрическими знаниями модели. Этот подход разделяет несовместимые обучающие сигналы в различных режимах надёжности путём обучения специализированных партнёров и применения целевого надзора.

Конфликты классифицируются на три режима — Grounding, Arbitration и Resistance, с одним специалистом-партнёром того же масштаба для каждого режима, обучаемым из общей базовой модели. Образцы жёстко маршрутизируются к соответствующему партнёру для on-policy reverse-KL надзора на уровне образца. Двухуровневый селектор фильтрует неинформативные токены и усиливает уверенно несовпадающие на основе межучительского расхождения и энтропии студента. Метод достигает улучшений за счёт специализации при фиксированном масштабе модели, при этом партнёры-специалисты существуют только во время обучения. Эксперименты показывают, что RAPS-DA превосходит все методы промптинга, декодирования, дообучения, RL и одиночного учителя в пяти сценариях конфликтов и двух вне-распределительных бенчмарках.

Этот фреймворк позволяет развёрнутой модели-студенту обрабатывать гетерогенные конфликты знаний без необходимости наличия меток режимов или доступа к партнёрам-специалистам во время инференса.