연구자들은 PaperPilot을 소개했습니다. 이는 underspecified하고 진화하는 사용자 의도에 대응하기 위해 과학적 검색을 워크플로우 유도로 프레임하는 다중 턴 문헌 검색 에이전트입니다. 앵커 논문과 쿼리가 주어지면 시스템은 검색 연산자의 실행 가능한 DAG를 구성하며, 이는 사용자 피드백을 통해 정제될 수 있습니다.

  • PaperPilot-9B는 다중 턴 상호작용 하에서 기본 Qwen3.5-9B 도구집합 에이전트보다 성능이 우수합니다.
  • Hit@5가 58.0에서 77.0으로, MRR이 47.5에서 59.4로, nDCG@10이 26.8에서 32.5로 증가했습니다.
  • 워크플로우 실행 오류가 9.5%에서 0%로 감소했습니다.

이 결과는 명시적이고 편집 가능한 검색 워크플로우가 복잡한 과학적 의도와 문헌 검색 에이전트를 정렬하기 위해 효과적이고 제어 가능한 인터페이스를 제공함을 보여줍니다.