Авторы предлагают сквозную, полностью дифференцируемую нейронную архитектуру, специально разработанную для фонемного выравнивания, чтобы преодолеть застой в этой области по сравнению с достижениями в распознавании речи (ASR). Модель включает кодировщик с двумя дополнительными ветвями, предназначенными для проверки идентичности фонемы и обнаружения границ. Декодер, реализованный в виде обучаемого модуля на основе дифференцируемого мягкого динамического программирования, формирует окончательные решения по выравниванию. Вся система оптимизируется с использованием нового контрастивного лосса, который способствует четкому разделению между областями стационарных состояний фонем и границами переходов. Экспериментальные результаты показывают, что предложенный подход превосходит современные методы на размеченных вручную английских бенчмарках. Кроме того, модель демонстрирует сильные способности к обобщению на уровне слов и эффективную работу на невиданных ранее языках.