Os pesquisadores apresentam o DigitalCoach, um conjunto de dados multimodal composto por 72 sessões de treinamento de uso do computador entre especialistas humanos e novatos, com 22.752 turnos de diálogo fundamentados em 28,1 horas de gravações de tela e eventos de entrada em cinco aplicativos de software.
- A avaliação automática mostra que os modelos fornecem instruções mais diretas, mas menos explicações, diagnósticos de erros e perguntas de verificação de conhecimento em comparação com humanos.
- Quando os métodos de treinamento são fixos, as falas dos modelos se assemelham às referências humanas, mas permanecem pouco fundamentadas no contexto visual.
- Avaliações interativas confirmam que os treinadores modelo fazem com que os aprendizes sigam passivamente as instruções sem um engajamento mais profundo.
O conjunto de dados estabelece uma base para o desenvolvimento de agentes de treinamento colaborativos e proativos para uso do computador.