Back to list
arxiv_cs_cv 2026年2月10日

拡張された現実:3D 環境におけるプロンプトインジェクション

Extended to Reality: Prompt Injection in 3D Environments

Translated: 2026/3/15 17:05:06
mlmmprompt-injection3d-visionroboticsvisual-perception

Japanese Translation

arXiv:2602.07104v1 Announce Type: new 要約:マルチモーダル大規模言語モデル(MLLM)は、3D 環境における視覚入力の解釈と実行能力を向上させ、ロボットや状況に応じた対話エージェントなど多様なアプリケーションを可能にした。MLLM が物理世界のカメラ撮影映像を推理する際に、新たな攻撃対象領域が浮上し、攻撃者は環境中にテキストを備えた物理物体を配置することで MLLM の意図されたタスクを覆すことができる。過去の研究はテキストドメインおよびデジタル編集された 2D 画像におけるプロンプトインジェクションを調査してきたが、これらの攻撃が 3D 物理環境の中でどのように機能するかは未明である。このギャップを埋めるために、私たちは、テキストを備えた物理物体の配置ではなくデジタル画像編集を介して、3D 環境における MLLM に対するプロンプトインジェクション攻撃である PI3D を導入した。我々は、注入されたテキストを備えた有効な 3D 物体姿勢(位置と向き)を特定する問題を設定・解決し、攻撃者の目標は MLLM を注入されたタスクを実行させることにありながら、物体の配置が物理的に妥当であるように保つことにあった。実験では、PI3D は多様化したカメラ経路下で複数の MLLM に対して効果的な攻撃であることを示した。我々はさらに既存の防御を評価し、PI3D に対する防御が不十分であることを示した。

Original Content

arXiv:2602.07104v1 Announce Type: new Abstract: Multimodal large language models (MLLMs) have advanced the capabilities to interpret and act on visual input in 3D environments, empowering diverse applications such as robotics and situated conversational agents. When MLLMs reason over camera-captured views of the physical world, a new attack surface emerges: an attacker can place text-bearing physical objects in the environment to override MLLMs' intended task. While prior work has studied prompt injection in the text domain and through digitally edited 2D images, it remains unclear how these attacks function in 3D physical environments. To bridge the gap, we introduce PI3D, a prompt injection attack against MLLMs in 3D environments, realized through text-bearing physical object placement rather than digital image edits. We formulate and solve the problem of identifying an effective 3D object pose (position and orientation) with injected text, where the attacker's goal is to induce the MLLM to perform the injected task while ensuring that the object placement remains physically plausible. Experiments demonstrate that PI3D is an effective attack against multiple MLLMs under diverse camera trajectories. We further evaluate existing defenses and show that they are insufficient to defend against PI3D.