BlockPilot은 사전 채우기 표현에 기반하여 최적의 추론 블록 크기를 동적으로 예측하는 확산 기반 추측 디코딩을 위한 샘플 적응 정책을 도입합니다. 이 접근 방식은 훈련 블록 크기 주변의 최적 값의 국소 구조를 활용하여 고정된 블록 크기의 비최적성을 해결합니다.

  • 인스턴스 적응형 의사 결정 메커니즘이 있는 경량 정책 학습 문제로 블록 크기 선택을 공식화합니다.
  • 사전 채우기 단계 이후에 한 번만 예측을 수행하여 원활한 통합과 최소한의 오버헤드를 가능하게 합니다.
  • 온도 T=1에서 Qwen3-4B에 대해 5.92의 수용 길이와 4.20배의 속도 향상을 달성합니다.

이 방법은 플러그 앤 플레이로 설명되며, 상당한 컴퓨팅 자원이나 아키텍처 변경 없이 일관되게 효율성을 개선합니다.