本論文は、SkillFuzzを紹介します。これは、個別には無害なスキルが相互作用してエージェントを意図しない目標へ誘導する可能性があるオープンスキルマーケットプレイスにおいて、暗黙的インテントを発見するために設計された実行不要のテスト手法です。この発見をスキルの構成に関するファジング問題として定式化することで、本手法は構造化された契約を抽出し、契約主導のモンテカルロ木探索を用いて潜在的に競合する組み合わせを優先します。

  • SkillFuzzは、構造化されたスキル契約を抽出し、契約主導のモンテカルロ木探索を利用する初の実行不要テストアプローチです。
  • 代表的なワークロードにおいて、固定されたクエリ予算の下で1,000件を超える固有の暗黙的インテントを発見します。
  • システムは、実行時検証中に最もリスクの高いフラグ付き構成の80%以上を確認します。
  • ペアワイズ相互作用空間のごく一部のみを探索しながらも、他の検索戦略よりも大幅に多くの高重大度の暗黙的インテントを特定します。

このアプローチは、スキルの構成を通じてのみ現れる効果を検出する課題に対処し、導入時に実行環境を必要とせずにエージェントの動作監査を行うためのスケーラブルな方法を提供します。