Concordia: Puntos de control persistentes con núcleo JIT-compilado para inferencia tolerante a fallos de LLM

Este artículo presenta Concordia, un entorno de ejecución diseñado para proporcionar tolerancia a fallos en agentes LLM de larga duración manteniendo el estado valioso en las GPUs sin reiniciar la pila de servicio. El sistema utiliza un núcleo persistente residente en el dispositivo que se interpone en la carga del módulo GPU para admitir instrumentación a nivel PTX y SASS.

Concordia compila JIT manejadores especializados de delta-checkpoint, como escáneres de bloques KV y aplicadores de recuperación, que se intercambian dinámicamente en la tabla de operadores del núcleo persistente. El entorno de ejecución consume un búfer circular sin bloqueo de tareas de cómputo y checkpoint, desencadenando la detección de páginas sucias y el almacenamiento intermedio de deltas automáticamente. Los registros comprometidos se anexan a un registro visible para la CPU en memoria CXL o DRAM del host, permitiendo la recuperación sin poner la CPU del host en el camino crítico.

Este enfoque permite la inferencia LLM tolerante a fallos observando núcleos binarios en puntos de sincronización del dispositivo y recuperando el estado eficientemente sin requerir lógica de checkpoint específica para la aplicación en cada componente.