Back to list
MCP の破壊を招く関数ハッキング攻撃:関数呼び出しおよびエージェントモデルに対する新しい脅威
Breaking MCP with Function Hijacking Attacks: Novel Threats for Function Calling and Agentic Models
Translated: 2026/4/24 20:22:18
Japanese Translation
arXiv:2604.20994v1 発表種別:横断
要旨:エージェント AI の発展により、外部関数を呼び出して AI ドライブシステムの機能を拡張するように設計された関数呼び出し型大規模言語モデル(LLM)への関心が高まりました。インジェクションおよび Jailbreaking 攻撃は、LLM のユーザープロンプト操作に対する脆弱性を示すために広く研究されています。エージェントモデルの拡張された機能は、その関数呼び出しインターフェースを通じてさらに多くの脆弱性をもたらしています。最近の LLM セキュリティの研究では、関数呼び出しが誤用され、データ改ざんや盗難を引き起こすことで、無限ループなどの破壊的動作を引き起こしたり、Jailbreaking 攻撃のスタイルにおいて有害なコンテンツを生成したりすることが示されました。本論文では、エージェントモデルのツール選択プロセスを操作して、攻撃者が選択した特定の関数の呼び出しを強制する新しい関数ハッキング攻撃(FHA)を導入します。既存の攻撃はモデルの関数呼び出しタスクにおける文脈的な偏好に焦点を当てているのに対し、我々は FHA が文脈的な意味に対してほぼ無関心であり、関数セットに対して堅牢であることを示しました。これにより、FHA は多様なドメインに適用可能です。さらに、FHA は普遍的な敵対関数を生み出すために訓練可能であることを示し、単一の攻撃された関数が複数クエリおよびペイロード構成のツール選択をハッキングできることを示しました。我々は 5 つの異なるモデル(包括的および推論バリアントを含む)で実験を行い、確立された BFCL データセットにおける平均単回認識率(ASR)を 70% から 100% まで達しました。我々の発見は、エージェントシステムにおける強力なガードレールとセキュリティモジュールの必要性をさらに示しています。
Original Content
arXiv:2604.20994v1 Announce Type: cross
Abstract: The growth of agentic AI has drawn significant attention to function calling Large Language Models (LLMs), which are designed to extend the capabilities of AI-powered system by invoking external functions. Injection and jailbreaking attacks have been extensively explored to showcase the vulnerabilities of LLMs to user prompt manipulation. The expanded capabilities of agentic models introduce further vulnerabilities via their function calling interface. Recent work in LLM security showed that function calling can be abused, leading to data tampering and theft, causing disruptive behavior such as endless loops, or causing LLMs to produce harmful content in the style of jailbreaking attacks. This paper introduces a novel function hijacking attack (FHA) that manipulates the tool selection process of agentic models to force the invocation of a specific, attacker-chosen function. While existing attacks focus on semantic preference of the model for function-calling tasks, we show that FHA is largely agnostic to the context semantics and robust to the function sets, making it applicable across diverse domains. We further demonstrate that FHA can be trained to produce universal adversarial functions, enabling a single attacked function to hijack tool selection across multiple queries and payload configurations. We conducted experiments on 5 different models, including instructed and reasoning variants, reaching 70% to 100% ASR over the established BFCL dataset. Our findings further demonstrate the need for strong guardrails and security modules for agentic systems.