arxiv arXiv cs.CL · 1 小时前 · 来源： 5 天前 · research

DigitalCoach数据集揭示了智能体计算机使用辅导中的差距

译自 English → 中文

研究人员推出了DigitalCoach，这是一个多模态数据集，包含72个由人类专家指导新手的计算机使用辅导会话，共有22,752个对话轮次，基于五个软件应用程序中28.1小时的屏幕和输入事件录制。

自动评估显示，与人类相比，模型提供的指令更直接，但解释、错误诊断和知识检查问题较少。
当辅导方法固定时，模型的发言类似于人类参考，但在视觉上下文中的 grounding 仍然较差。
交互式评估证实，模型教练导致学习者被动地遵循指令，缺乏更深层次的参与。

该数据集为开发协作式和主动式计算机使用辅导智能体奠定了基础。

重要性 1/3 arXiv cs.CL AI agents Multimodal