Os pesquisadores apresentam o DigitalCoach, um conjunto de dados multimodal composto por 72 sessões de treinamento de uso do computador entre especialistas humanos e novatos, com 22.752 turnos de diálogo fundamentados em 28,1 horas de gravações de tela e eventos de entrada em cinco aplicativos de software.

  • A avaliação automática mostra que os modelos fornecem instruções mais diretas, mas menos explicações, diagnósticos de erros e perguntas de verificação de conhecimento em comparação com humanos.
  • Quando os métodos de treinamento são fixos, as falas dos modelos se assemelham às referências humanas, mas permanecem pouco fundamentadas no contexto visual.
  • Avaliações interativas confirmam que os treinadores modelo fazem com que os aprendizes sigam passivamente as instruções sem um engajamento mais profundo.

O conjunto de dados estabelece uma base para o desenvolvimento de agentes de treinamento colaborativos e proativos para uso do computador.