Las cápsulas de estado de ejecución permiten la verificación y restauración de puntos de control vinculados al gráfico del estado completo de ejecución, incluidos los estados KV, recurrentes y de convolución, para la inferencia de IA en dispositivo con baja latencia y lotes pequeños. En RTX 5090 y Jetson AGX Thor, la restauración de cápsulas logra una corrección exacta a nivel de bytes e idéntica a nivel de tokens, con operaciones de GPU de submilisegundo y aceleraciones de TTFT hasta 27x en 16k tokens, demostrando una reducción significativa de latencia en flujos de trabajo de IA interactivos.
Cápsulas de estado de ejecución para inferencia de IA en dispositivo con baja latencia
Traducido del English → Español