В данной статье представлена Concordia, среда выполнения, предназначенная для обеспечения отказоустойчивости долгоживущих агентов LLM за счет сохранения ценного состояния на GPU без перезапуска стека обслуживания. Система использует постоянное ядро, residing на устройстве, которое перехватывает загрузку модулей GPU для поддержки инструментирования на уровне PTX и SASS.

Concordia JIT-компилирует специализированные обработчики дельта-контрольных точек, такие как сканеры блоков KV и аппликаторы восстановления, которые динамически заменяются в таблице операторов постоянного ядра. Среда выполнения потребляет lock-free кольцевой буфер задач вычислений и контрольных точек, автоматически запуская обнаружение грязных страниц и подготовку дельт. Зафиксированные записи добавляются в лог, видимый для CPU, в памяти CXL или DRAM хоста, что позволяет выполнять восстановление без включения процессора хоста в критический путь.

Этот подход обеспечивает отказоустойчивый вывод LLM путем наблюдения за бинарными ядрами в точках синхронизации устройства и эффективного восстановления состояния без необходимости внедрения логики контрольных точек, специфичной для приложения, в каждый компонент.