LISE descompone las incrustaciones de hablante en componentes interpretables sin anotaciones. Los experimentos de escucha muestran que los participantes humanos distinguen correctamente a los hablantes con una precisión del 83,9%, validando la interpretabilidad de los componentes mientras se preserva el rendimiento de ASV.