4037 articles
SurgMotion:汎用手術動画理解のためのビデオネイティブ基礎モデル
SurgMotion: A Video-Native Foundation Model for Universal Understanding of Surgical Videos
arXiv:2602.05638v3 Announce Type: replace 抽象:基礎モデルが手術動画解析を高度に発展させたものの、現在の手法は主にピクセルレベルの再構成目標に依存しており、煙や光沢的な反射、流体の動きなどの低レベル視覚的ディテールにモデルの容量を浪費する一方、手術理解に不可欠な構文構造には注力していない。私たちは、ピクセルレベルの再構成から潜在ベクトルの運動予測への学習...
Original: arXiv:2602.05638v3 Announce Type: replace Abstract: While foundation models have advanced surgical video analysis, current approaches rely predominantly on pixel-level reconstruction objectives that ...
VIB-Probe: Variational Information Bottleneck を用いた視覚言語モデルにおける幻覚の検出と緩和
VIB-Probe: Detecting and Mitigating Hallucinations in Vision-Language Models via Variational Information Bottleneck
arXiv:2601.05547v2 Announce Type: replace Abstract: 視覚言語モデル (VLMs) はマルチモーダルタスクにおいて顕著な進展を遂げましたが、生成されたテキストが下敷きの視覚コンテンツから逸脱する「幻覚」に対して感受性が高く残っています。既存の幻覚検出手法は主に出力ロジットや外部検証ツールに頼っており、内部メカニズムを見落としてしまいがちです。本研...
Original: arXiv:2601.05547v2 Announce Type: replace Abstract: Vision-Language Models (VLMs) have demonstrated remarkable progress in multimodal tasks, but remain susceptible to hallucinations, where generated ...
Vision-Language モデルにおけるプロンプト誘発型誤認のメカニズム
Mechanisms of Prompt-Induced Hallucination in Vision-Language Models
Abstract: 大型ビジョン・ランゲージモデル(VLM)は高度な能力を持っていますが、テキストプロンプトを視覚的証拠よりも優先することで誤認することがあります。我々は、プロンプトが画像内の物体数を過大評価する設定(例:画像に 3 つしかない水を咲く花を 4 つあると指示する)を制御された環境で、この失敗モードを検討しました。低い物体数の場合、モデルは過大評価を修正しますが、物体数が増えるとプロ...
Original: arXiv:2601.05201v2 Announce Type: replace Abstract: Large vision-language models (VLMs) are highly capable, yet often hallucinate by favoring textual prompts over visual evidence. We study this failu...
MFC-RFNet: レーダーシーケンス予測のためのマルチスケールガイド付き修正フローネットワーク
MFC-RFNet: A Multi-scale Guided Rectified Flow Network for Radar Sequence Prediction
arXiv:2601.03633v2 Announce Type: replace 要旨:レーダーエコーシーケンスからの正確で高解像度の降水予報(现在天気予報)は、災害緩和および経済計画にとって不可欠ですが、まだ大きな課題です。主要な困難には、複雑なマルチスケール進化のモデル化、移動により引き起こされるインターフレーム特徴の整合性の補正、そして空間の忠実性を損なわない限り効率的に長距離の空間時間...
Original: arXiv:2601.03633v2 Announce Type: replace Abstract: Accurate and high-resolution precipitation nowcasting from radar echo sequences is crucial for disaster mitigation and economic planning, yet it re...
DriveLaW: 潜在駆動空間における計画とビデオ生成の統合
DriveLaW:Unifying Planning and Video Generation in a Latent Driving World
arXiv:2512.23421v3 Announce Type: replace 摘要: ワールドモデルは、現実世界の長尾課題に対処するために、時間が経つにつてシナリオがどのように展開するかを学習することにより、自律運転において不可欠なものとなっています。しかし、現行的なアプローチでは、ワールドモデルは限定的な役割に退けられており、 ostensibly 統合されたアーキテクチャ内にありますが、...
Original: arXiv:2512.23421v3 Announce Type: replace Abstract: World models have become crucial for autonomous driving, as they learn how scenarios evolve over time to address the long-tail challenges of the re...
FETAL-GAUGE: 胎児超音波画像におけるビジョン・言語モデルの評価に特化したベンチマーク
FETAL-GAUGE: A Benchmark for Assessing Vision-Language Models in Fetal Ultrasound
arXiv:2512.22278v2 Announce Type: replace Abstract: 産前超音波画像の需要の高まりにより、訓練済みの超音波診断士への世界的な不足が深刻化し、必須となる胎児健診に障壁を形成しています。ディープラーニングは超音波診断士の効率を高め、新卒者を支援する可能性があるため、注目されています。ビジョン・言語モデル(VLM)は画像とテキストを同時に処理し、単一フレ...
Original: arXiv:2512.22278v2 Announce Type: replace Abstract: The growing demand for prenatal ultrasound imaging has intensified a global shortage of trained sonographers, creating barriers to essential fetal ...
適切なボディランドマーカーサブセットが、LIBRAS の孤立した記号の認識をより高精度かつ 5 倍高速に実現する
Proper Body Landmark Subset Enables More Accurate and 5X Faster Recognition of Isolated Signs in LIBRAS
arXiv:2510.24887v4 Announce Type: replace Abstract: この論文は、ブラジル手話(LIBRAS)の孤立した記号を認識するために、軽量なボディランドマーカー検出を利用する可能性を調査しています。骨格 - 画像表現の採用は認識性能を大幅に向上させてきたものの、ランドマーカー抽出に OpenPose を使用した場合の処理性能は低下していました。前段階調査で...
Original: arXiv:2510.24887v4 Announce Type: replace Abstract: This paper examines the feasibility of utilizing lightweight body landmark detection for recognizing isolated signs in Brazilian Sign Language (LIB...
Small-Noise Injection Driven Noise Aggregation Analysis: Diffusion モデルに対する効率的なメンバー推測
Noise Aggregation Analysis Driven by Small-Noise Injection: Efficient Membership Inference for Diffusion Models
arXiv:2510.21783v2 Announce Type: replace 摘要:ディフューズモデルは、高品質な画像を生成する強力な性能を示しています。典型的な例は、Stable Diffusion などのテキストからの画像生成モデルです。しかし、その普及は潜在的なプライバシーリスクをもたらす可能性があります。主要な懸念は、モデルトレーニングプロセスにおいて特定のデータサンプルが使用された...
Original: arXiv:2510.21783v2 Announce Type: replace Abstract: Diffusion models have demonstrated powerful performance in generating high-quality images. A typical example is text-to-image generator like Stable...
Video-STAR:ツールを強化したオープン語彙動作認識へのアプローチ
Video-STAR: Reinforcing Open-Vocabulary Action Recognition with Tools
arXiv:2510.08480v2 発表タイプ:差し替え 要約:マルチモーダル大規模言語モデル(MLLM)は視覚的推論とテキスト的推論の架け橋を結ぶ顕著な可能性を示しましたが、テキスト中心の先入観への依存は、オープン語彙シナリオにおいて半義的に類似した動作を分離する能力を制限することがよくあります。これを解決するため、文脈的なサブモーション分解とツール拡張強化学習を調和させた、オープン語彙動作認...
Original: arXiv:2510.08480v2 Announce Type: replace Abstract: Multimodal large language models (MLLMs) have demonstrated remarkable potential in bridging visual and textual reasoning, yet their reliance on tex...
EchoVLM: 汎用超音波知能のための動的混合専門家(Mixture-of-Experts)ベースのビジョン・言語モデル
EchoVLM: Dynamic Mixture-of-Experts Vision-Language Model for Universal Ultrasound Intelligence
超音波画像診断学会誌 arXiv:2509.14977v2 Announce Type: replace 要約 超音波画像検査は、非イオン化放射線、低コスト、リアルタイム画像化の特性を活かして、早期がんスクリーニングの好む画像診断法へと発展しました。しかし、従来の超音波診断は医師の専門知識に依存しており、高い主観性や低い診断効率という課題を抱えています。ビジョン・言語モデル(VLM)はこの課題...
Original: arXiv:2509.14977v2 Announce Type: replace Abstract: Ultrasound imaging has become the preferred imaging modality for early cancer screening due to its advantages of non-ionizing radiation, low cost, ...
DualTrack: センサーレス 3D ウルトラサウンドにはローカルコンテキストとグローバルコンテキストの両方が必要
DualTrack: Sensorless 3D Ultrasound needs Local and Global Context
arXiv:2509.09530v2 Announce Type: replace 要約:3 次元超音波(US)は従来の 2 次元画像化に比べて多くの臨床的な利点を有していますが、その大規模な採用は従来の 3 次元システムの高価さと複雑さによって制限されています。連続した 2 次元 US 画像のシーケンスから 3 次元プローブの経路を推定するための深層学習を用いた「センサーレス 3D US」は有望...
Original: arXiv:2509.09530v2 Announce Type: replace Abstract: Three-dimensional ultrasound (US) offers many clinical advantages over conventional 2D imaging, yet its widespread adoption is limited by the cost ...
適応圧縮と発火源検出を統合した、効率的な UAV 基盤型野火ビデオ解析の 2 ステージフレームワーク
Two-Stage Framework for Efficient UAV-Based Wildfire Video Analysis with Adaptive Compression and Fire Source Detection
無無人航空機 (UAV) は、空中ビデオ解析を可能にするため、災害応急対応においてますます重要な役割を果たしています。UAV に限られた計算リソースがあるため、大型モデルをオンボー드分析のために効率的に実行することは困難です。この課題に対処するために、UAV プラットフォーム上の野火監視および発火源検出のために軽量かつ効率的な 2 ステージフレームワークを提案します。具体的には、ステージ 1 では...
Original: arXiv:2508.16739v2 Announce Type: replace Abstract: Unmanned Aerial Vehicles (UAVs) have become increasingly important in disaster emergency response by facilitating aerial video analysis. Due to the...
ChatENV: センサーガイダンス型環境モニタリングとシナリオシミュレーションのためのインタラクティブなビジョン・ランゲージモデル
ChatENV: An Interactive Vision-Language Model for Sensor-Guided Environmental Monitoring and Scenario Simulation
arXiv:2508.10635v3 Announce Type: replace Abstract: 遠隔センシング画像からの環境変化の理解は、気候適応、都市計画、および生態系モニタリングにとって不可欠である。しかし、現在のビジョン・ランゲージモデル(VLM)は環境センサーからの因果的な信号を見落とし、スタイルバイアスに陥りやすい単一ソースのキャプションに依存しており、インタラクティブなシナリオ...
Original: arXiv:2508.10635v3 Announce Type: replace Abstract: Understanding environmental changes from remote sensing imagery is vital for climate resilience, urban planning, and ecosystem monitoring. Yet, cur...
GenHSI: ヒューマン・シーンインタラクション動画の制御可能生成
GenHSI: Controllable Generation of Human-Scene Interaction Videos
arXiv:2506.19840v2 発表 型式:置換 要旨:大規模な事前学習されたビデオ拡散モデルは、多様なビデオ生成で顕著な能力を示している。しかし、既存の解決策は、現実的なダイナミクスやアフライアンス(機能的な可能性) unrealism が見られ、主体的なアイデンティティの保持に欠け、高額のトレーニングが求められるなど、ヒューマン・シーンインタラクション(HSI)を含む長動画の生成において...
Original: arXiv:2506.19840v2 Announce Type: replace Abstract: Large-scale pre-trained video diffusion models have exhibited remarkable capabilities in diverse video generation. However, existing solutions face...
DVP-MVS++: 深部・法線・エッジの同調と調和された視覚的先行情報の活用による多視点立体化のシナジー
DVP-MVS++: Synergize Depth-Normal-Edge and Harmonized Visibility Prior for Multi-View Stereo
arXiv:2506.13215v2 発表タイプ:代替 要旨:最近、パッチ変形に基づく手法は、欠伸や拡張した認識を取り入れたため、テクスチャのない領域の再構築において顕著な効果を示してきました。しかし、これらの手法は一般的にパッチ変形の匹引き不確実性を緩和するために信頼できるピクセルの相関を特定することに焦点を当てており、エッジスキップや視覚的被覆による変形の不安定性を無視しており、これにより潜在...
Original: arXiv:2506.13215v2 Announce Type: replace Abstract: Recently, patch deformation-based methods have demonstrated significant effectiveness in multi-view stereo due to their incorporation of deformable...
DyTact: 手 - 物体操作における動的接触の捉え方
DyTact: Capturing Dynamic Contacts in Hand-Object Manipulation
arXiv:2506.03103v2 Announce Type: replace 抽象: AI キャラクターアニメーション、XR、ロボット工学におけるリアリスト的な操作を実現するために、手 - 物体の動的接触の再構築が不可欠であり、しかし既存の捉え方には重度の隠蔽、複雑な表面詳細、技術的限界が理由として重大な課題を残している。この論文では、手 - 物体操作における動的接触を侵襲なく正確に捉える...
Original: arXiv:2506.03103v2 Announce Type: replace Abstract: Reconstructing dynamic hand-object contacts is essential for realistic manipulation in AI character animation, XR, and robotics, yet it remains cha...
SignX: コンパクトなポーズ豊富潜在空間における連続的な手話認識
SignX: Continuous Sign Recognition in Compact Pose-Rich Latent Space
arXiv:2504.16315v4 Announce Type: replace 要約: 手話 (SL) データ処理の複雑さには多くの課題が伴います。現在の手話 Sign 認識アプローチは、RGB 手話ビデオをポーズ情報を通じて単語ベースの ID Glosses(Sign の一意の識別子)に翻訳することを目的としています。本論文は、コンパクトなポーズ豊富潜在空間における連続手話認識 (SLR)...
Original: arXiv:2504.16315v4 Announce Type: replace Abstract: The complexity of Sign Language (SL) data processing brings many challenges. The current approach to recognition of SL signs aims to translate RGB ...
Art3D: 3D 生成のための色平らなイラストからの学習なしアプローチ
Art3D: Training-Free 3D Generation from Flat-Colored Illustration
arXiv:2504.10466v2 発表 タイプ:置換 要旨:大規模な事前学習された画像から 3D への生成モデルは、多様な形状の生成において顕著な能力を示していますが、多くのモデルは手描きのような色平らな参照画像に対しては、3D の錯覚がないために現実的な 3D アセットの合成に苦しんでいます。これは、芸術コンテンツの作成において最も使いやすい入力モードの一つです。これに対する我々の提案は、A...
Original: arXiv:2504.10466v2 Announce Type: replace Abstract: Large-scale pre-trained image-to-3D generative models have exhibited remarkable capabilities in diverse shape generations. However, most of them st...
PILOT: 可誘導型レイアウト認識に優れたインタリーブ OCR トランフォーマー
PILOT: A Promptable Interleaved Layout-aware OCR Transformer
arXiv:2504.03621v2 Announce Type: replace 要約:古典的な OCR パイプラインは、文書の読み取りを検出、分割、認識の 3 つの段階に分解しており、これはローカライゼーション誤差への敏感性やインタラクティブなクエリーへの拡張の困難さを生み出しています。本論文では、手書きおよび印刷された文書において、テキスト認識と空間-grounding を単一のコンパクトな...
Original: arXiv:2504.03621v2 Announce Type: replace Abstract: Classical OCR pipelines decompose document reading into detection, segmentation, and recognition stages, which makes them sensitive to localization...
テキストベース人物検索において合成データを検証するための実証的研究
An Empirical Study of Validating Synthetic Data for Text-Based Person Retrieval
arXiv:2503.22171v2 Announce Type: replace 要約:データはテキストベース人物検索(Text-Based Person Retrieval, TBPR)研究において決定的な役割を果たしています。主流の研究パラダイムは、モデルを訓練するために実世界の人物画像と手動でのテキストアノテーションを必要とすることで、プライバシー懸念やアノテーションの負荷を生み出していま...
Original: arXiv:2503.22171v2 Announce Type: replace Abstract: Data plays a pivotal role in Text-Based Person Retrieval (TBPR) research. Mainstream research paradigm necessitates real-world person images with m...