Новая методика адаптирует DAAM к моделям диффузии речи, анализируя, как стилизующие подписи влияют на волны ТТС. Она показывает, что стилизующие токены имеют меньшую временну дисперсию, чем содержательные токены, при этом внимание к стилю коррелирует с интонацией и энергией, а пик стилизации происходит на ранних слоях, где энтропия внимания минимизируется, что указывает на максимальную селективность.
Перекрестное внимание по атрибуции для стиля-описательного текста-к-голосу
Переведено с English → Русский