4037 articles

SurgMotion：汎用手術動画理解のためのビデオネイティブ基礎モデル

SurgMotion: A Video-Native Foundation Model for Universal Understanding of Surgical Videos

arXiv:2602.05638v3 Announce Type: replace 抽象：基礎モデルが手術動画解析を高度に発展させたものの、現在の手法は主にピクセルレベルの再構成目標に依存しており、煙や光沢的な反射、流体の動きなどの低レベル視覚的ディテールにモデルの容量を浪費する一方、手術理解に不可欠な構文構造には注力していない。私たちは、ピクセルレベルの再構成から潜在ベクトルの運動予測への学習...

Original: arXiv:2602.05638v3 Announce Type: replace Abstract: While foundation models have advanced surgical video analysis, current approaches rely predominantly on pixel-level reconstruction objectives that ...

SurgMotion：汎用手術動画理解のためのビデオネイティブ基礎モデル

VIB-Probe: Variational Information Bottleneck を用いた視覚言語モデルにおける幻覚の検出と緩和

Vision-Language モデルにおけるプロンプト誘発型誤認のメカニズム

MFC-RFNet: レーダーシーケンス予測のためのマルチスケールガイド付き修正フローネットワーク

DriveLaW: 潜在駆動空間における計画とビデオ生成の統合

FETAL-GAUGE: 胎児超音波画像におけるビジョン・言語モデルの評価に特化したベンチマーク

適切なボディランドマーカーサブセットが、LIBRAS の孤立した記号の認識をより高精度かつ 5 倍高速に実現する

Small-Noise Injection Driven Noise Aggregation Analysis: Diffusion モデルに対する効率的なメンバー推測

Video-STAR：ツールを強化したオープン語彙動作認識へのアプローチ

EchoVLM: 汎用超音波知能のための動的混合専門家（Mixture-of-Experts）ベースのビジョン・言語モデル

DualTrack: センサーレス 3D ウルトラサウンドにはローカルコンテキストとグローバルコンテキストの両方が必要

適応圧縮と発火源検出を統合した、効率的な UAV 基盤型野火ビデオ解析の 2 ステージフレームワーク

ChatENV: センサーガイダンス型環境モニタリングとシナリオシミュレーションのためのインタラクティブなビジョン・ランゲージモデル

GenHSI: ヒューマン・シーンインタラクション動画の制御可能生成

DVP-MVS++: 深部・法線・エッジの同調と調和された視覚的先行情報の活用による多視点立体化のシナジー

DyTact: 手 - 物体操作における動的接触の捉え方

SignX: コンパクトなポーズ豊富潜在空間における連続的な手話認識

Art3D: 3D 生成のための色平らなイラストからの学習なしアプローチ

PILOT: 可誘導型レイアウト認識に優れたインタリーブ OCR トランフォーマー

テキストベース人物検索において合成データを検証するための実証的研究