본 기사는 dSpark, dflash, MTP, QAT와 같은 기술들의 최근 추론 성능 향상이 모델의 디스크로의 스플로오버를 더 용인할 수 있게 할 만큼 충분한지 묻고 있습니다.

  • 저자는 스플로오버가 일반적으로 초당 4~5토큰에서 0.5토큰으로 속도가 떨어지는 원인이 된다고 지적합니다.
  • 본 문서는 이러한 속도 향상 기술들이 스플로오버 동안 간신히 허용 가능한 성능을 유지할 만큼 충분히 높은 추론 속도를 만들어내는지 문의합니다.
  • dSpark와 디스크 스플로오버를 함께 사용하는 타당성에 대한 사용자 경험을 찾고 있습니다.

본 기사는 결론을 제공하지 않습니다. 이는 현재 벤치마크에 대한 커뮤니티 피드백을 구하는 질문이기 때문입니다.