Back to list
arxiv_cs_cv 2026年2月10日

"PhyWorldBench":テキストから動画への生成における物理的真実性の包括的評価

"PhyWorldBench": A Comprehensive Evaluation of Physical Realism in Text-to-Video Models

Translated: 2026/3/15 8:02:14
text-to-videophysical-realismmachine-learningcomputer-visionbenchmarking

Japanese Translation

arXiv:2507.13428v2 Announce Type: replace Abstract: 動画生成モデルは、高品質で写真真似たコンテンツの作成において著進歩を遂げましたが、物理現象を正確にシミュレートする能力は依然として未解決の重要な課題となっています。本研究では、物理法則への準拠を基準として動画生成モデルを評価するための包括的なベンチマーク「PhyWorldBench」を提案します。このベンチマークは、物体の運動やエネルギー保存則などの基本原理から、剛体相互作用や人間・動物の運動に関わる複雑なシナリオまで、多段階の物理現象をカバーしています。さらに、我々は現実世界の物理法則を意図的に違反するプロンプトを用い、モデルが論理的整合性を保ったままこれらの指示に従う能力を評価できる新たな「Anti-Physics」カテゴリを導入しました。大規模な人間評価の他、ゼロショット(zero-shot)の方式で物理的真実性を評価するための、現在のマルチモーダル大規模言語モデルを利用したシンプルで効果的な手法も提案します。 本研究では、5 つのオープンソースモデルと 5 つのプロプライエタリモデルを含む 12 つの最先端のテキストから動画への生成モデルを評価し、詳細な比較と分析を行いました。1050 つの厳選されたプロンプトを Fundamental, Composite, Anti-physics シナリオに又渡した系統的なテストを通じて、これらのモデルが現実世界の物理に準拠する際に直面する決定的な課題を特定しました。また、多様な物理現象とプロンプトタイプ下でのパフォーマンスを検討し、物理原則への忠実性を高めるプロンプト作成に向けたターゲット指向の推奨事項を導き出しました。

Original Content

arXiv:2507.13428v2 Announce Type: replace Abstract: Video generation models have achieved remarkable progress in creating high-quality, photorealistic content. However, their ability to accurately simulate physical phenomena remains a critical and unresolved challenge. This paper presents PhyWorldBench, a comprehensive benchmark designed to evaluate video generation models based on their adherence to the laws of physics. The benchmark covers multiple levels of physical phenomena, ranging from fundamental principles such as object motion and energy conservation to more complex scenarios involving rigid body interactions and human or animal motion. Additionally, we introduce a novel Anti-Physics category, where prompts intentionally violate real-world physics, enabling the assessment of whether models can follow such instructions while maintaining logical consistency. Besides large-scale human evaluation, we also design a simple yet effective method that utilizes current multimodal large language models to evaluate physics realism in a zero-shot fashion. We evaluate 12 state-of-the-art text-to-video generation models, including five open-source and five proprietary models, with detailed comparison and analysis. Through systematic testing across 1050 curated prompts spanning fundamental, composite, and anti-physics scenarios, we identify pivotal challenges these models face in adhering to real-world physics. We further examine their performance under diverse physical phenomena and prompt types, and derive targeted recommendations for crafting prompts that enhance fidelity to physical principles.