「月1万件の攻撃パターンでAIモデルを評価」、F5がAIセキュリティ指標を解説

F5ネットワークスジャパンは2026年4月23日、AI時代のセキュリティ対策に関する記者説明会を開催した。プロンプトインジェクション(AIモデルに悪意ある指示を紛れ込ませる攻撃手法)などAIモデル特有の脅威動向を解説するとともに、主要AIモデルのセキュリティ強度を月次で評価・公開する新たな指標「F5 Labs AI Security Leaderboards」を紹介した。

LLMには「信頼境界」がない

F5ネットワークスジャパン CTO-ジャパン 丸瀬明彦氏

F5ネットワークスジャパン CTO-ジャパンの丸瀬明彦氏はまず、LLM(大規模言語モデル)特有の脅威について解説した。従来のセキュリティモデルにはRBAC(役割ベースのアクセス制御)やOS権限、サンドボックス(既存のシステムやネットワークから隔離された独立した仮想環境)といった仕組みがあり、権限や信頼境界の概念が組み込まれているというが、LLMにはこうした概念が内在しないことを指摘。

「基本的にユーザーを助けようという意志が働くので、企業にとっての機密情報であっても答えてしまう傾向がある。どれが信頼できる入力かを区別できない」(丸瀬氏)

この性質を突くのが「プロンプトインジェクション」と呼ばれる攻撃手法だと丸瀬氏は説明。悪意ある指示をプロンプトに紛れ込ませることで、開発者が設定したシステムの制約を無効化し、本来出力すべきでない情報を引き出すという。

攻撃の形態には、AIと複数回の会話を重ねながら、ロールプレイや架空シナリオを与えて段階的にモデルの防御を崩していくケースもあり、「個々のメッセージは無害に見えるが、攻撃が会話の文脈に依存するため検知が難しい」という。

LLMはすべての入力を等しく扱うため、信頼できる指示と悪意ある指示を区別できない
無料会員登録

無料会員登録をすると、本サイトのすべての記事を閲覧いただけます。
また、最新記事やイベント・セミナーの情報など、ビジネスに役立つ情報を掲載したメールマガジンをお届けいたします。