研究人员推出了DigitalCoach,这是一个多模态数据集,包含72个由人类专家指导新手的计算机使用辅导会话,共有22,752个对话轮次,基于五个软件应用程序中28.1小时的屏幕和输入事件录制。

  • 自动评估显示,与人类相比,模型提供的指令更直接,但解释、错误诊断和知识检查问题较少。
  • 当辅导方法固定时,模型的发言类似于人类参考,但在视觉上下文中的 grounding 仍然较差。
  • 交互式评估证实,模型教练导致学习者被动地遵循指令,缺乏更深层次的参与。

该数据集为开发协作式和主动式计算机使用辅导智能体奠定了基础。