研究者らは、5つのソフトウェアアプリケーションにわたる28.1時間の画面および入力イベント録画に基づいた72件の人間による専門家と初心者のコンピュータ操作指導セッション、22,752回の対話ターンを含むマルチモーダルデータセット「DigitalCoach」を紹介する。

  • 自動評価により、モデルは人間と比較してより直接的な指示を提供するが、説明、エラー診断、知識確認の質問は少ないことが示された。
  • 指導方法を固定した場合、モデルの発話は人間の参照と類似しているものの、視覚的文脈に根ざしていないままとなっている。
  • インタラクティブ評価により、モデルによるコーチは学習者がより深い関与なしに指示を受動的に従うことを引き起こすことが確認された。

このデータセットは、協調的かつ能動的なコンピュータ操作指導エージェントの開発の基盤を築く。