12673 articles

arxiv_cs_cv 2026/2/10

Specialized Agent Motion Prediction と Generic Agent Motion Prediction を Dynamic Occupancy Grid Maps で統合する

Integrating Specialized and Generic Agent Motion Prediction with Dynamic Occupancy Grid Maps

arXiv:2602.07938v1 Announce Type: new Abstract: センサーデータの不確実性、エージェントの複雑な振る舞い、および複数の実現可能な未来の存在により、運転シーンの正確な予測は挑ましい課題です。現在の Occupancy Grid Map を用いた予測手法は、主にエージェンチアガノスティックなシーン予測に焦点を当てており、一方、エージェンチスペシフィックな...

Original: arXiv:2602.07938v1 Announce Type: new Abstract: Accurate prediction of driving scene is a challenging task due to uncertainty in sensor data, the complex behaviors of agents, and the possibility of m...

arxiv_cs_cv 2026/2/10

シーン適応のための密度ガイダンスを活用したワンショットの人物数推計

One-Shot Crowd Counting With Density Guidance For Scene Adaptaion

arXiv:2602.07955v1 Announce Type: new 要旨:カメラによって撮影された多人数のシーンには、場所によって大きな違いがあり、既存の多人数モデルは未見の監視シーンへの汎化に制限がある。モデルの汎化性能を向上させるために、私たちは異なる監視シーンを異なるカテゴリーのシーンと見なし、少人数学習を導入して、与えられた例示カテゴリーシーンの未見監視シーンにモデルを適応させ...

Original: arXiv:2602.07955v1 Announce Type: new Abstract: Crowd scenes captured by cameras at different locations vary greatly, and existing crowd models have limited generalization for unseen surveillance sce...

arxiv_cs_cv 2026/2/10

D-ORCA: 会話中心の最適化による頑健な音声視覚キャプション生成

D-ORCA: Dialogue-Centric Optimization for Robust Audio-Visual Captioning

arXiv:2602.07960v1 発表タイプ:新規 要旨:話された対話_video_は情報源の主要なものであるため、誰が何をいつ発言したかを正確に特定することは、ディープ・ビデオ・アンダースタンディングに不可欠である。当社は、 extbf{d}ialogue-centric(会話中心の) extbf{o}mni-modal(オムニモーダルな)大規模言語モデルである D-ORCA を紹介する。D...

Original: arXiv:2602.07960v1 Announce Type: new Abstract: Spoken dialogue is a primary source of information in videos; therefore, accurately identifying who spoke what and when is essential for deep video und...

arxiv_cs_cv 2026/2/10

EasyTune: 拡散ベースの動き生成のための効率的なステップ認知微調整

EasyTune: Efficient Step-Aware Fine-Tuning for Diffusion-Based Motion Generation

arXiv:2602.07967v1 発表タイプ:新 要旨:近年、動き生成モデルは著しい進歩を遂げたにもかかわらず、下流タスクとの整合性という課題を抱えています。最近の研究は、拡散モデルの好みを直接的に合わせるために微分可能な報酬を使用することで有望な結果をもたらすことを示しています。しかし、これらの手法は (1) 非効率的で粗い粒度の最適化と (2) 高いメモリ消費に苦しんでいます。本稿では、我...

Original: arXiv:2602.07967v1 Announce Type: new Abstract: In recent years, motion generative models have undergone significant advancement, yet pose challenges in aligning with downstream objectives. Recent st...

arxiv_cs_cv 2026/2/10

FSP-Diff: フルスペクトル事前情報向上型二領域ラテン拡散による超低線量スペクトル CT 再構成

FSP-Diff: Full-Spectrum Prior-Enhanced DualDomain Latent Diffusion for Ultra-Low-Dose Spectral CT Reconstruction

arXiv:2602.07979v1 発表 タイプ:新 要旨:光子数検出器を用いたスペクトル計算トモグラフィ(CT)は、物質の区別と組織の特性化において大きな可能性を秘めています。しかし、超低線量条件下では、エネルギー固有の投影における信号対雑音比(SNR)が著しく低下し、再構成画像に強いアーティファクトが生じ、構造的な詳細が失われます。これを解決するため、フルスペクトル事前情報向上型二領域ラテ...

Original: arXiv:2602.07979v1 Announce Type: new Abstract: Spectral computed tomography (CT) with photon-counting detectors holds immense potential for material discrimination and tissue characterization. Howev...

arxiv_cs_cv 2026/2/10

ニューラル先验を用いた連続性を導くシナergティックな拡散:超スパースビュー CBCT 再構成のための新たなアプローチ

Continuity-driven Synergistic Diffusion with Neural Priors for Ultra-Sparse-View CBCT Reconstruction

圆锥形ビームコンピュータ断層撮影 (CBCT) の臨床応用は、放射線被曝量と画像品質間の内在的なトレードオフに制限されています。被曝量を低減するために行われる超スパースな角度サンプリングは、重度的な欠落サンプリングアーティファクトおよびスライス間の不一致を生じ、診断信頼性を損なうことになります。既存の再構成手法は、角度的連続性と空間詳細忠実性のバランスを取るのに困難を伴います。これらの課題に対処す...

Original: arXiv:2602.07980v1 Announce Type: new Abstract: The clinical application of cone-beam computed tomography (CBCT) is constrained by the inherent trade-off between radiation exposure and image quality....

arxiv_cs_cv 2026/2/10

ディープフェイク合成と検出:不均衡な対決

Deepfake Synthesis vs. Detection: An Uneven Contest

arXiv:2602.07986v1 発表タイプ:new 要旨:ディープフェイク技術の急速な進歩により、合成メディアの実在性が高く、アクセスしやすくなっています。拡散モデルやニューラルレイドースフィールド(NeRF)などの新興手法、ならびに従来の生成対抗ネットワーク(GAN)の改良が、ディープフェイクビデオの洗練された生成に寄与しています。同時に、ディープフェイク検出法も、トランスフォーマーアーキ...

Original: arXiv:2602.07986v1 Announce Type: new Abstract: The rapid advancement of deepfake technology has significantly elevated the realism and accessibility of synthetic media. Emerging techniques, such as ...

arxiv_cs_cv 2026/2/10

MCIE:空間ガイダンスに裏付けられたマルチモーダル LLM 駆動の複雑な指示に基づく画像編集

MCIE: Multimodal LLM-Driven Complex Instruction Image Editing with Spatial Guidance

arXiv:2602.07993v1 発表タイプ:新 要約:近年、指示に基づいた画像編集の進歩は目覚ましいものがある。しかし、既存の方法はまだ比較的単純な編集操作に限られており、複雑で構成的な指示を必要とする現実世界の適用を妨げている。本研究では、アーキテクチャ設計、データ、評価プロトコルという観点からこれらの課題に対処する。具体的には、現在のモデルにおける 2 つの主要な課題を特定した:指示遵...

Original: arXiv:2602.07993v1 Announce Type: new Abstract: Recent advances in instruction-based image editing have shown remarkable progress. However, existing methods remain limited to relatively simple editin...

arxiv_cs_cv 2026/2/10

ForecastOcc:視覚ベースのセマンティックオキュパンス予報

ForecastOcc: Vision-based Semantic Occupancy Forecasting

arXiv:2602.08006v1 Announce Type: new Abstract: 自律運転では、時間経過に伴う幾何学とセマンティクスの両方を予報する必要があるため、未来の環境状態について効果的に推論することが可能です。既存の視覚ベースのオキュパンス予報手法は、静的物体や動的物体などの運動関連カテゴリに焦点を当てていますが、セマンティック情報はほとんど欠如しています。最近のセマンティ...

Original: arXiv:2602.08006v1 Announce Type: new Abstract: Autonomous driving requires forecasting both geometry and semantics over time to effectively reason about future environment states. Existing vision-ba...

arxiv_cs_cv 2026/2/10

PhysDrape:明示力と衝突制約による物理的に実質な衣服の褶創学習

PhysDrape: Learning Explicit Forces and Collision Constraints for Physically Realistic Garment Draping

arXiv:2602.08020v1 発表タイプ:新しい 要旨:ディープラーニングに基づく衣服褶創は、従来の物理基盤シミュレーション(PBS)に比べて有望な代替手段として台頭しましたが、頑健な衝突処理が依然として主要なボトルネックとなっています。既存の多くの方法は、物理的妥当性をソフトペナルティによって強制しており、幾何学的実現可能性と物理的な妥当性との間で本質的なトレードオフを生み出しています:...

Original: arXiv:2602.08020v1 Announce Type: new Abstract: Deep learning-based garment draping has emerged as a promising alternative to traditional Physics-Based Simulation (PBS), yet robust collision handling...

arxiv_cs_cv 2026/2/10

FlashVID: Training-free Tree-based Spatiotemporal Token Merging による効率的な動画大規模言語モデル

FlashVID: Efficient Video Large Language Models via Training-free Tree-based Spatiotemporal Token Merging

arXiv:2602.08024v1 Announce Type: new 本文書は、ビデオ大規模言語モデル(VLLMs)の抽象説明文です。VLLMs は動画理解の能力を顕著に示しましたが、高量の大規模視覚トークンを処理する必要があるため、大規模な計算効率低下が発生しています。既存の VLLMs 加速フレームワークは、空間的なおよび時間的な冗長性を独立して圧縮し、これにより時空間関係を無視し、最適...

Original: arXiv:2602.08024v1 Announce Type: new Abstract: Although Video Large Language Models (VLLMs) have shown remarkable capabilities in video understanding, they are required to process high volumes of vi...

arxiv_cs_cv 2026/2/10

MIND: World モデルにおける記憶一貫性およびアクション制御のベンチマーク

MIND: Benchmarking Memory Consistency and Action Control in World Models

arXiv:2602.08025v1 Announce Type: new 要約:世界モデルは動的な視覚環境を理解し、記憶し、予測することを目的としていますが、それらの基礎的能力を評価するための統一されたベンチマークは依然として不足しています。このギャップを埋めるために、私たちが導入した MIND は、世界モデルの記憶の一貫性とアクション制御を評価するための、最初のオープンドメインクローズループリ...

Original: arXiv:2602.08025v1 Announce Type: new Abstract: World models aim to understand, remember, and predict dynamic visual environments, yet a unified benchmark for evaluating their fundamental abilities r...

arxiv_cs_cv 2026/2/10

增強型混合 3D 生成敵対ネットワーク:3D オブジェクトの補完と生成

Enhanced Mixture 3D CGAN for Completion and Generation of 3D Objects

arXiv:2602.08046v1 発表タイプ:新 要約:3D オブジェクトの生成と補完は、コンピュータビジョンにおいて転換的な課題を表しています。生成敵対ネットワーク(GANs)は、最近、現実的な視覚データ合成において強力な潜在的力を示しました。しかし、彼らは複雑かつ多様なデータ分布を捉えることに困難を覚えていることがあり、特に不完全な入力や大幅な欠損領域を伴うシナリオにおいてはより顕著で...

Original: arXiv:2602.08046v1 Announce Type: new Abstract: The generation and completion of 3D objects represent a transformative challenge in computer vision. Generative Adversarial Networks (GANs) have recent...

arxiv_cs_cv 2026/2/10

Vanilla Group Equivariant Vision Transformer: Simple and Effective

arXiv:2602.08047v1 Announce Type: new Abstract: 対称性の事前知識をインдукティブバイアスとして取り入れることで対等なビジョントランスフォーマー(ViT)を設計するアプローチは、性能向上の有望な道筋となってきました。しかし、既存の対等な ViT は、ViT 内の多様なモジュール—特にパッチ埋め込みと自己注意機構の調和—において、性能と対等性のバランス...

Original: arXiv:2602.08047v1 Announce Type: new Abstract: Incorporating symmetry priors as inductive biases to design equivariant Vision Transformers (ViTs) has emerged as a promising avenue for enhancing thei...

arxiv_cs_cv 2026/2/10

Weak to Strong: VLM ベースの仮ラベル付けをマルチモーダルビデオに基づく隠れ感情理解タスクにおける軽微な监督学習戦略として

Weak to Strong: VLM-Based Pseudo-Labeling as a Weakly Supervised Training Strategy in Multimodal Video-based Hidden Emotion Understanding Tasks

arXiv:2602.08057v1 発表タイプ:新しい 摘要: 本論文は、ビデオにおける「隠れた感情」の自動認識に課題を解決するために、マルチモーダルな軽微监督フランクワークを提案し、iMiGUE テニスインタビューデータセットで最良の成績を達成しました。まず、YOLO 11x が人間のポートレートをフレームごとに検出・切り出し、DINOv2-Base が切り出された領域から視覚的特徴を抽出しま...

Original: arXiv:2602.08057v1 Announce Type: new Abstract: To tackle the automatic recognition of "concealed emotions" in videos, this paper proposes a multimodal weak-supervision framework and achieves state-o...

arxiv_cs_cv 2026/2/10

Picasso: 物理制約付きサンプリングを用いた包括的なシーン再構築

Picasso: Holistic Scene Reconstruction with Physics-Constrained Sampling

arXiv:2602.08058v1 Announce Type: new Abstract: 遮蔽や測定ノイズが存在する環境において、センサーデータに適合する幾何学的に正確なシーン再構築は依然として物理的に誤っている可能性がある。例えば、シーンの物体の姿勢と形状を推定し、それらをシミュレーターに取り込む際、小さな誤差は物体の相互貫入や不安定な平衡状態を含む不合理な構成として現れる。これにより、...

Original: arXiv:2602.08058v1 Announce Type: new Abstract: In the presence of occlusions and measurement noise, geometrically accurate scene reconstructions -- which fit the sensor data -- can still be physical...

arxiv_cs_cv 2026/2/10

DICE: Diffusion モデルにおけるコントラスト性部分分解を用いた作家スタイルとコンテンツの分離

DICE: Disentangling Artist Style from Content via Contrastive Subspace Decomposition in Diffusion Models

論文: arXiv:2602.08059v1 発表タイプ: new 要約: 最近のディフュージョンモデルの普及により、スタイルの模倣が容易になり、許可なく独自の芸術スタイルを模倣できるようになりました。デプロイされたプラットフォームでは、これは著作権および知的財産のリスクを高め、信頼性の高い保護を求めています。しかし、既存の対策は、新しいスタイルが登場する際に高価な重み編集が必要だったり、明示的...

Original: arXiv:2602.08059v1 Announce Type: new Abstract: The recent proliferation of diffusion models has made style mimicry effortless, enabling users to imitate unique artistic styles without authorization....

arxiv_cs_cv 2026/2/10

ReRoPE: RoPE を再利用した相対カメラ制御

ReRoPE: Repurposing RoPE for Relative Camera Control

arXiv:2602.08068v1 発表型: 新しい 要旨: 制御可能なカメラアングルを持つ動画生成は、インタラクティブコンテンツ作成、ゲーム、シミュレーションなどのアプリケーションにおいて不可欠である。既存の手法では、事前に学習済み動画モデルが、固定された参照(例: 最初のフレーム)に対して定義されたカメラポーズをベースに適応させるようになっている。しかし、これらのエンコーディングはシフト不変...

Original: arXiv:2602.08068v1 Announce Type: new Abstract: Video generation with controllable camera viewpoints is essential for applications such as interactive content creation, gaming, and simulation. Existi...

arxiv_cs_cv 2026/2/10

ViT-5:現代中期の 2020 年代向けヴィジョントランスフォーマー

ViT-5: Vision Transformers for The Mid-2020s

arXiv:2602.08071v1 発表タイプ:新規 本稿では、過去 5 年間のアーキテクチャ進歩を活かし、現代のヴィジョントランスフォーマー(ViT)をシステム的に近代化することを実証した。画一的な「Attention-FFN」構造を保ちつつ、ノーマライゼーション、活性化関数、位置エンコーディング、ゲート機構、そして学習可能なトークンといったコンポーネント単位で微調整を行った。これらの更新は、...

Original: arXiv:2602.08071v1 Announce Type: new Abstract: This work presents a systematic investigation into modernizing Vision Transformer backbones by leveraging architectural advancements from the past five...

arxiv_cs_cv 2026/2/10

VidVec: ビデオ MLLM エンベディングの解放によるビデオ・テキスト検索

VidVec: Unlocking Video MLLM Embeddings for Video-Text Retrieval

arXiv:2602.08099v1 Announcement Type: new Abstract: 最近の研究は、生成型マルチモーダル大規模言語モデル (MLLM) をビジョンタスク用のエンベディング抽出器に適応させ、通常は汎用的表現を生成するために微調整を行っています。しかし、それらはビデオタスクにおけるパフォーマンスはビデオファウンデーションモデル (VFM) に劣ります。本論文では、ML...

Original: arXiv:2602.08099v1 Announce Type: new Abstract: Recent studies have adapted generative Multimodal Large Language Models (MLLMs) into embedding extractors for vision tasks, typically through fine-tuni...