ParallelKernelBench는 87개의 실제 워크로드에 대해 빠른 멀티 GPU CUDA 커널을 작성하는 LLM을 평가합니다. 최상위 모델이 생성한 커널은 최적 구현 속도의 3분의 1 미만으로 성능이 낮지만, 일부 출력물은 기존 공개 코드보다 우수합니다.
프론티어 LLM은 빠른 멀티 GPU 커널 작성에 어려움을 겪음
번역 English → 한국어
ParallelKernelBench는 87개의 실제 워크로드에 대해 빠른 멀티 GPU CUDA 커널을 작성하는 LLM을 평가합니다. 최상위 모델이 생성한 커널은 최적 구현 속도의 3분의 1 미만으로 성능이 낮지만, 일부 출력물은 기존 공개 코드보다 우수합니다.