BlockPilot: 확산 기반 추측 디코딩을 위한 인스턴스 적응 정책 학습

BlockPilot은 사전 채우기 표현에 기반하여 최적의 추론 블록 크기를 동적으로 예측하는 확산 기반 추측 디코딩을 위한 샘플 적응 정책을 도입합니다. 이 접근 방식은 훈련 블록 크기 주변의 최적 값의 국소 구조를 활용하여 고정된 블록 크기의 비최적성을 해결합니다.

이 방법은 플러그 앤 플레이로 설명되며, 상당한 컴퓨팅 자원이나 아키텍처 변경 없이 일관되게 효율성을 개선합니다.