media Together AI Blog · 8일 전 · inference

프론티어 LLM은 빠른 멀티 GPU 커널 작성에 어려움을 겪음

번역 English → 한국어

ParallelKernelBench는 87개의 실제 워크로드에 대해 빠른 멀티 GPU CUDA 커널을 작성하는 LLM을 평가합니다. 최상위 모델이 생성한 커널은 최적 구현 속도의 3분의 1 미만으로 성능이 낮지만, 일부 출력물은 기존 공개 코드보다 우수합니다.

중요도 2/3 차별점을 갖춘 새 평가 환경 신뢰도 1/3 Together AI Blog Code generation Evaluation & benchmarks