ScenA настраивает текстово-аудио модель на основе нескольких ссылочных голосов и естественного языкового запроса сцены для генерации реалистичных разговоров с несколькими участниками. Она решает проблему "сокращения ссылки" за счёт использования тренировочного расписания с высоким уровнем шума, обеспечивая привязку голосов на основе текстовых запросов, а не на основе акустической схожести. Оценка на CoVoMix2-Dialogue показывает, что ScenA превосходит существующие системы по привязке участников и генерирует богатые, естественные аудио-сцены с перекрывающимися речевыми фрагментами и фоновым шумом.