Back to list
Agency Systemsの知的財産権保護: ワーターマーク法を使用して
On Protecting Agentic Systems' Intellectual Property via Watermarking
Translated: 2026/3/7 10:09:38
Japanese Translation
大規模言語モデル(LLMs)が自律的な推理とツールの使用を行えるようなアジェンターシステムに進化したことで、高度な知的財産(IP)価値が増えています。我々は、このシステムに対してその特性を悪用して専有性のある技術を盗むアドversaryによる模仿攻撃が非常に危険であることを示しました。現在のLLMワーターマークテクニクは、これは特定の分野で失敗していますように灰色ボックス内で実行される内部の解決法を隠すことにより操作のトレースを隠しているためです。この論文ではAGENTWMと呼ばれる、アジェンターシステムに特化したワーターマークフレームワークを作成しました。AGENTWMは、機能的に同じツールの実行パス間の分布を巧みにバイアスし、確認可能な信号を可視な動的トレース全体で埋め込みました。この構造により、ユーザーには識別不能です。我々は、適応的な侵略者と呼ばれる攻撃者に対してAGENTWMにより高精度の検出ができる自動化された生産を提供し、さらに、ワーターマークが取り除かれてもモデルの有用性が著しく低下しないことを確立した事実に基づいて検証プロセスを開発しました。具体的な評価は3つの複雑な分野で行われ、アジェンダースキームを自動的に生成し、水準の高い検出精度を達成する一方で使用者にとって負担が少なかったことを示しています。最終的には我々の結果が、適応的な侵食者がワーターマークを取り除くことは不可能であり利用価値が著しく落ち込むというAGENTWMにより効果的であることを確認します。
Original Content
arXiv:2602.08401v1 Announce Type: new
Abstract: The evolution of Large Language Models (LLMs) into agentic systems that perform autonomous reasoning and tool use has created significant intellectual property (IP) value. We demonstrate that these systems are highly vulnerable to imitation attacks, where adversaries steal proprietary capabilities by training imitation models on victim outputs. Crucially, existing LLM watermarking techniques fail in this domain because real-world agentic systems often operate as grey boxes, concealing the internal reasoning traces required for verification. This paper presents AGENTWM, the first watermarking framework designed specifically for agentic models. AGENTWM exploits the semantic equivalence of action sequences, injecting watermarks by subtly biasing the distribution of functionally identical tool execution paths. This mechanism allows AGENTWM to embed verifiable signals directly into the visible action trajectory while remaining indistinguishable to users. We develop an automated pipeline to generate robust watermark schemes and a rigorous statistical hypothesis testing procedure for verification. Extensive evaluations across three complex domains demonstrate that AGENTWM achieves high detection accuracy with negligible impact on agent performance. Our results confirm that AGENTWM effectively protects agentic IP against adaptive adversaries, who cannot remove the watermarks without severely degrading the stolen model's utility.