Solución al descenso abrupto de decodificación de contexto largo en Radeon R9700 con vLLM 0.22.1
Un descenso abrupto en el rendimiento de decodificación de contexto largo en AMD Radeon AI PRO R9700 (RDNA4) fue resuelto habilitando AITER Unified Attention en vLLM 0.22.1. La corrección implica relajar un gate CDNA para incluir RDNA4, deshabilitar otros backends de atención y usar caché KV bf16, lo que resulta en aceleraciones significativas en todas las longitudes de contexto. FP8 KV es ineficaz en este hardware, y el contexto nativo del modelo de 262K se logra completamente con bf16, ofreciendo ~2.9× concurrencia sin necesidad de FP8.