Back to list
arxiv_cs_cv 2026年2月10日

対抗的摩耗と劣化:物理世界における対抗サンプルを生成するため、自然な損傷を活用する

Adversarial Wear and Tear: Exploiting Natural Damage for Generating Physical-World Adversarial Examples

Translated: 2026/3/15 5:02:12
adversarial-examplesgandeep-learningautonomous-drivingimage-processing

Japanese Translation

arXiv:2503.21164v2 Announce Type: replace 要旨:物理世界における対抗サンプルの存在は、自律走行など安全関連アプリケーションにおけるディープニューラルネットワークの展開に重大な課題を提起しています。既存の物理世界対抗サンプル作成方法の多くは、特定のシナリオに合わせて調整された影、レーザービーム、シールなどの一時的な修正に依存する、即興的なアプローチです。本論文では、自然に現れる現象である「摩耗と劣化」の自然な特性に着想を得て、新しいクラスの物理世界対抗サンプルである AdvWT を導入します。「摩耗と劣化」は手動で施された擾乱とは異なり、環境劣化に伴って時間とともに有機的に生じます(例:屋外標識のgradual deterioration)。これを達成するため、AdvWT は 2 ステップのアプローチを採用します。まず、GAN に基づく無教師学习な画像間翻訳ネットワークを用いて、特に屋外標識の文脈にあるこれらの自然に生じる損傷をモデル化します。翻訳ネットワークは、損傷した標識の特徴を潜在の「損傷スタイルコード」にエンコードします。2 つ目のステップでは、スタイルコードに対抗擾乱を導入し、その変換プロセスを戦略的に最適化します。この操作は、損傷スタイル表現を微妙に変化させ、ネットワークが視覚的に自然な損傷の表象を有しつつも、ニューラルネットワークを欺く効果を持つ対抗画像を生成するように導きます。2 つの標識データセットに対する包括的な実験を通じて、AdvWT がデジタルおよび物理的な両分野で DNN を効果的に欺くことを示しました。既存の物理世界対抗サンプルと比較して、AdvWT は高い攻撃成功率、より頑健な性能、そしてより自然な外観を実現しました。さらに、AdvWT を学習に統合することで、実世界の損傷した標識に対するモデルの汎化性を高めることが可能となりました。

Original Content

arXiv:2503.21164v2 Announce Type: replace Abstract: The presence of adversarial examples in the physical world poses significant challenges to the deployment of Deep Neural Networks in safety-critical applications such as autonomous driving. Most existing methods for crafting physical-world adversarial examples are ad-hoc, relying on temporary modifications like shadows, laser beams, or stickers that are tailored to specific scenarios. In this paper, we introduce a new class of physical-world adversarial examples, AdvWT, which draws inspiration from the naturally occurring phenomenon of `wear and tear', an inherent property of physical objects. Unlike manually crafted perturbations, `wear and tear' emerges organically over time due to environmental degradation, as seen in the gradual deterioration of outdoor signboards. To achieve this, AdvWT follows a two-step approach. First, a GAN-based, unsupervised image-to-image translation network is employed to model these naturally occurring damages, particularly in the context of outdoor signboards. The translation network encodes the characteristics of damaged signs into a latent `damage style code'. In the second step, we introduce adversarial perturbations into the style code, strategically optimizing its transformation process. This manipulation subtly alters the damage style representation, guiding the network to generate adversarial images where the appearance of damages remains perceptually realistic, while simultaneously ensuring their effectiveness in misleading neural networks. Through comprehensive experiments on two traffic sign datasets, we show that AdvWT effectively misleads DNNs in both digital and physical domains. AdvWT achieves an effective attack success rate, greater robustness, and a more natural appearance compared to existing physical-world adversarial examples. Additionally, integrating AdvWT into training enhances a model's generalizability to real-world damaged signs.