Un nuevo marco evalúa la pronunciación utilizando únicamente datos de habla nativa, sin errores etiquetados. Utiliza la sorpresa de los tokens de habla y la alineación guiada por transcripción para detectar desviaciones fonotácticas, logrando un rendimiento cercano al de los métodos supervisados en múltiples conjuntos de datos.