Un benchmark de texto a voz solo con CPU compara Kokoro-82M, Supertonic-3 e Inflect-Nano-v1 en un Intel Xeon con 4 núcleos y 15.6GB de RAM. Kokoro ofrece el sonido más natural (MOS 4.44-4.45) a pesar de su velocidad más lenta, con la versión ONNX superando a PyTorch en factor de tiempo real mientras mantiene una calidad idéntica. Supertonic-5-step logra un resultado equilibrado a 3.2x tiempo real y MOS 4.37, convirtiéndolo en la opción práctica para usabilidad y calidad.