Le Système de parrainage utilise un moniteur d'entropie Rust pour détecter l'incertitude par token dans l'inférence locale Gemma 3 4B, en acheminant uniquement les tokens incertains vers Sonnet via l'extraction de span à porte NER et la récupération sémantique. Les benchmarks montrent qu'il atteint une précision de 71,4 % à 0,21 $, surpassant le modèle Anthropic Advisor (62,9 % à 0,44 $) sur sept ensembles de données Hugging Face, avec une amélioration clé sur SQuAD v2 en acheminant les chunks de passage source vers le modèle cloud.