Cápsulas de estado de ejecución para inferencia de IA en dispositivo con baja latencia
Las cápsulas de estado de ejecución permiten la verificación y restauración de puntos de control vinculados al gráfico del estado completo de ejecución, incluidos los estados KV, recurrentes y de convolución, para la inferencia de IA en dispositivo con baja latencia y lotes pequeños. En RTX 5090 y Jetson AGX Thor, la restauración de cápsulas logra una corrección exacta a nivel de bytes e idéntica a nivel de tokens, con operaciones de GPU de submilisegundo y aceleraciones de TTFT hasta 27x en 16k tokens, demostrando una reducción significativa de latencia en flujos de trabajo de IA interactivos.