カートリッジ蒸留による表面の隠れたLLMバイアスの検出

研究者らは、Distill to Detect (D2D) を導入した。これは、分布シフトを検出可能なテキストに変換することで、大規模言語モデル内の隠された選好バイアスを暴く手法である。この技術は、カートリッジと呼ばれるKVキャッシュプレフィックスアダプターを使用して、疑わしいモデルとその基本バージョンとの間の乖離を増幅させる。

D2Dは、モデルと基本モデルの間のシフトをカートリッジに蒸留し、支配的な乖離を集約する。
この手法は、隠されたバイアスを増幅させ、複数のバイアスタイプにわたって確実に検出可能にする。
理論的枠組みは、ロジット分布シフトのフィッシャー重み付け投影を通じてD2Dの有効性を説明する。

プレフィックスチューニングアダプターを検出ツールに変換することで、D2Dは展開された言語モデル内の隠された動作を監査するための実用的な構成要素を提供する。