В статье представлен wav2VOT — инструмент для автоматической оценки времени начала голоса, длительности закрытия и реализации взрыва, использующий модель wav2vec2. Он решает потребность в точных инструментах аннотации речи для фонетических исследований, демонстрируя, как большие речевые модели могут применяться к этим конкретным задачам.
- wav2VOT показывает результаты, сопоставимые с современными подходами на невидимых наборах данных.
- Инструмент может оценивать признаки с высокой точностью при дообучении.
- Анализ демонстрирует высокую достоверность в отношении оглушенности смычных и места артикуляции.
Эти результаты показывают, что большие речевые модели способны создавать точные аннотации, что стимулирует их дальнейшее исследование как инструментов в конвейерах фонетических исследований.