ユーザーが限定的なスコープのアプリケーションワークフローを通じて、小規模モデルの有効性を高める方法をデモンストレーション

あるユーザーが、限られたツールセットを持つ専用「アプリケーション」やワークフローにモデルの視野を制限することで、小規模なローカル言語モデルのパフォーマンスを向上させるブラウザベースのエージェントアーキテクチャを紹介しています。

本システムは、テキストのみ対応のウェブブラウザやコンピュータ制御アプリなど、持続的な状態を維持する集中型インターフェースへと、多数の汎用ツールを置き換えます。
このアプローチにより、狭いスコープ内での単純な動詞-数値ナビゲーションを使用することで、URLのような正確なテキストにおける小規模モデルのエラーを防ぎます。
Gemma 4 E4B に対するテストでは、このセットアップにおいて Gemma 4 26B よりも優れたパフォーマンスを示しました。これは大規模モデルが専用プランニングツールを回避する傾向があったためです。
エージェントはこれらのアプリケーションから退出する際に完全なコンテキストを保持し、一般モードで約100個のより広範なツールセットにアクセスできます。

著者は、このアーキテクチャがコンテキストノイズとツール過負荷を軽減することで、小規模モデルが複雑なタスクを管理するのに役立つと示唆しています。