概要
近年、AIのワークフローへの統合が進む中、その脆弱性を理解することは非常に重要です。新たに明らかになった脆弱性「Best-of-N (BoN) ジェイルブレイク」は、AIの安全対策に関する認識を大きく変えています。
BoNジェイルブレイクは、「ブルートフォース攻撃」をより巧妙にした手法です。AIモデルの組み込みの「確率的(Stochastic)」な性質、つまり、同じ質問に対しても毎回わずかに異なる出力を生成するランダム性を悪用します。
この攻撃では、AIが安全ルールをすり抜けるような回答を出すまで、質問を何度も異なる方法で繰り返します。これは「ブラックボックスアルゴリズム」であり、攻撃者はモデルの内部構造を知る必要がなく、外部から一般ユーザーと同様に操作できます。
具体的な攻撃手順は三段階です。まず、「拡張(Augmentation)」として、禁止されたプロンプトにランダムな大文字小文字、文字のスクランブル、タイプミス、無意味なフィラーなどの「ノイズ」を加えて数百〜数千ものバリエーションを生成します。
次に、「集中攻撃(Bombardment)」として、これらのバリエーション全てを、簡単なスクリプトを用いてAIモデルに同時または高速で送信します。この際、特別なハードウェアや高度な知識は不要で、計算コストも低いとされています。
最後に、「選択(Selection)」の段階で、別のLLMのような自動グレーダーが、生成された多数の出力の中から、安全フィルターを回避して制限されたコンテンツを出力した応答を特定します。
この手法は極めて高い成功率を示しています。元の研究では、GPT-4oで89%、Claude 3.5 Sonnetで78%の成功率が記録されました(1万件のプロンプトバリエーションの場合)。わずか100件のバリエーションでも、Claude 3.5 Sonnetは41%の確率で失敗しました。
攻撃時間は数時間から数秒に短縮されており、OWASPの2025年LLM Top 10では、BoNが属する「プロンプトインジェクション」が最も重要な脆弱性として挙げられています。また、この攻撃はテキスト、画像、音声といったあらゆる「モダリティ」で機能することが確認されています。
この脆弱性は、サイバーセキュリティだけでなく、マーケティングとブランディングにも直接的な問題を引き起こします。AIの安全フィルターは完全ではなく、十分な試行回数を重ねれば突破されることが研究で明確に示されています。
チームがAIツールにクライアントの機密情報や著作権コンテンツを入力すると、それが後でモデルから抽出される法的リスクがあります。もしブランドが展開するAIツールがBoNでジェイルブレイクされ、有害な出力が生成された場合、その責任はブランドに帰属し、ブランドイメージを大きく損なう可能性があります。さらに、「プレフィックス攻撃」を組み合わせることで、BoNの成功率はさらに35%向上し、より効率的な攻撃が可能になっています。
解説
BoNジェイルブレイクは、AIの確率的(Stochastic)な性質が、創造性をもたらすと同時に深刻な脆弱性にもなり得ることを示しています。これは単なる技術的な問題ではなく、企業、特にマーケティングチームが直視すべき、ブランド、法的、評判に関わるリスクです。
多くの企業はAIベンダーの「安全」という言葉を鵜呑みにしがちですが、安全フィルターは完全な防御策ではありません。ベンダーはリスクを最小限に見積もるインセンティブがあるため、自社のリスク評価を外部委託しないことが重要です。
具体的な対策としては、まずプロンプト入力の監査を徹底することが不可欠です。GDPRのデータ保護と同レベルの機密性を持って扱うべきです。ライセンスコンテンツ、クライアントの機密情報、独自の情報などをサードパーティのAIツールに入力する際は、ベンダーのデータポリシーを厳格に確認し、不明確な場合は使用を控えるべきです。
次に、出力の監視と異常検出を継続的に実施することです。特にリクエスト量の急増は、攻撃の兆候である可能性があります。また、自社のAIシステムに対して継続的なレッドチーム演習(セキュリティ専門家による攻撃シミュレーション)を行い、潜在的な脆弱性を特定し、事前に対策を講じることがデューデリジェンスとして求められます。
さらに、AIがテキストだけでなく、画像や音声といったあらゆるモダリティに対応している場合、すべての形式で脆弱性が発生する可能性があることを理解し、対策を講じる必要があります。
万が一のインシデントに備え、すべてのプロンプト入力とAI出力をログに記録することは必須です。これがないと、インシデント発生時に法的な防御や状況説明を行うための証拠を提示できません。AIの導入を進める企業は、これらの防御的な実践を早急に構築し、予期せぬインシデントによる損害を未然に防ぐ必要があります。
- 掲載元: Search Engine Land
- 公開日: 2026-04-22T13:00:00+00:00

AI safety risk: How Best-of-N jailbreaking bypasses safeguards