CORTIS позволяет голосовым агентам, ориентированным на задачи, генерировать структурированные речевые выходы путем тонкой настройки моделей речи с использованием только текстовой задачной поддержки. Он превосходит архитектуры ASR-LLM при ухудшении акустических характеристик, особенно в сохранении высокого уровня семантики задач, не требуя парных аннотаций речи и целей во время обучения.