media Together AI Blog · há 8 d · inference

LLMs de fronteira têm dificuldade em escrever kernels multi-GPU rápidos

Traduzido do English → Português (BR)

O ParallelKernelBench avalia LLMs na escrita de kernels CUDA multi-GPU rápidos para 87 cargas de trabalho reais. O modelo principal gera kernels que performam menos de um terço da velocidade das implementações ótimas, embora algumas saídas superem qualquer código público existente.

Importância 2/3 Novo ambiente de avaliação com diferenciais Confiança 1/3 Together AI Blog Code generation Evaluation & benchmarks

Ler original