Back to list
Omni モデルにおけるコンテキストアンラリング
Context Unrolling in Omni Models
Translated: 2026/4/24 19:47:27
Japanese Translation
arXiv:2604.21921v1 発表型:新しい
要約: 私たちは、テキスト、画像、動画、3D 幾何学、および潜在表現を含む多様なモーダルにネイティブにトレーニングされた統一的多モーダルモデルである Omni を提示します。このようなトレーニングは、コンテキストアンラリングを可能にし、モデルが予測を生産する前に複数のモーダル表現間で明示的に推理することを可能にします。このプロセスは、補完的な情報を異種モーダル間集合化し、共有多モーダル知識マンifoールのより忠実な近似を可能にし、下流の推理信頼性を向上させます。その結果、Omni は多モーダル生成と理解のベンチマークで優れたパフォーマンスを示し、文脈内のテキスト、画像、動画、および 3D 幾何学の生成を含む進化的な多モーダル推理能力を示します。
Original Content
arXiv:2604.21921v1 Announce Type: new
Abstract: We present Omni, a unified multimodal model natively trained on diverse modalities, including text, images, videos, 3D geometry, and hidden representations. We find that such training enables Context Unrolling, where the model explicitly reasons across multiple modal representations before producing predictions. This process enables the model to aggregate complementary information across heterogeneous modalities, facilitating a more faithful approximation of the shared multimodal knowledge manifold and improving downstream reasoning fidelity. As a result, Omni achieves strong performance on both multimodal generation and understanding benchmarks, while demonstrating advanced multimodal reasoning capabilities, including in-context generation of text, image, video, and 3D geometry.