Исследователи представляют датасет DyadEE для обнаружения эмоциональной конгруэнтности в парной речи и предлагают TRACE, оконный фреймворк, который моделирует эти взаимодействия как упорядоченные последовательности акустических эмбеддингов. Исследование показывает, что включение контекста разговора и информации о отношениях значительно повышает точность обнаружения.
- Датасет DyadEE содержит как эмоционально конгруэнтные разговоры, так и синтетические взаимодействия с нарушенной конгруэнтностью посредством замены партнёров и пересинтеза эмоций.
- TRACE рассматривает каждый образец как трассу взаимодействия, используя репрезентации Whisper, дообученные по эмоциям, вместо объединённых высказываний.
- Модель достигает лучшей точности 97.01% на датасете DyadEE за счёт моделирования с учётом временных отношений.