wav2VOT: Estimación automática del tiempo de inicio de voz, duración del cierre y realización de explosión con wav2vec2

El artículo presenta wav2VOT, una herramienta para la estimación automática del tiempo de inicio de voz, la duración del cierre y la realización de explosión que aprovecha el modelo wav2vec2. Aborda la necesidad de herramientas precisas de anotación de habla en la investigación fonética al demostrar cómo los grandes modelos de habla pueden aplicarse a estas tareas específicas.

wav2VOT tiene un rendimiento comparable con los enfoques actuales en conjuntos de datos no vistos.
La herramienta puede estimar características con alta precisión cuando se ajusta finamente.
El análisis muestra una alta fidelidad en la sonorización de oclusivas y el lugar de articulación.

Estos resultados demuestran que los grandes modelos de habla son capaces de producir anotaciones precisas, motivando su exploración adicional como herramientas en las tuberías de investigación fonética.