4037 articles

arxiv_cs_cv 2026/2/10

幾何形状、クラス不均衡、および配列が再構築精度に及ぼす影響——微 CT フェントムに基づく評価

Influence of Geometry, Class Imbalance and Alignment on Reconstruction Accuracy -- A Micro-CT Phantom-Based Evaluation

arXiv:2602.07658v1 Announce Type: new 要約:医療画像から作成された 3D モデルの精度は、画像取得ハードウェア、分割手法、メッシュ処理技術などによって異なります。幾何形状の種類、クラス不均衡、ボクセルおよび点雲の配列精度への影響は十分に探求されていません。本研究では、再構築パイプライン全体の誤差を評価し、異なる分割アルゴリズムおよび幾何形状に適用できるボクセ...

Original: arXiv:2602.07658v1 Announce Type: new Abstract: The accuracy of the 3D models created from medical scans depends on imaging hardware, segmentation methods and mesh processing techniques etc. The effe...

arxiv_cs_cv 2026/2/10

内外両方で見聞きする:運転者安全評価とインテリジェント車両の意思決定のためのマルチモーダル人工知能システム

Looking and Listening Inside and Outside: Multimodal Artificial Intelligence Systems for Driver Safety Assessment and Intelligent Vehicle Decision-Making

arXiv:2602.07668v1 Announce Type: new 要約: 「見る内的・見る外的(LILO)」フレームワークは、外部の環境と運転者の状態を理解して安全性を向上させるインテリジェント車両アプリケーションを可能にし、スマートエアバッグの展開、自律制御移行における取り次ぎ時間予測、および運転者注意モニタリングなどの事例で実用化されています。本研究では、このフレームワークへの拡張...

Original: arXiv:2602.07668v1 Announce Type: new Abstract: The looking-in-looking-out (LILO) framework has enabled intelligent vehicle applications that understand both the outside scene and the driver state to...

arxiv_cs_cv 2026/2/10

視覚と言語:自律走行車用安全評価と計画のための新表現手法と人工知能

Vision and language: Novel Representations and Artificial intelligence for Driving Scene Safety Assessment and Autonomous Vehicle Planning

arXiv:2602.07680v1 Announce Type: new 摘要:視覚言語モデル(VLMs)は、近年、視覚的観測を自然言語概念と一致させる能力を持ち、安全至要な自律走行におけるセマンティックな推論に新たな機会をもたらした強力な表現学習システムとして登場しました。本稿は、この視覚言語表現を感知、予測、計画パイプラインに統合した際、それがどのように走行シーンにおける安全評価と意思決定...

Original: arXiv:2602.07680v1 Announce Type: new Abstract: Vision-language models (VLMs) have recently emerged as powerful representation learning systems that align visual observations with natural language co...

arxiv_cs_cv 2026/2/10

ビデオにおけるプロセス・オブ・スローヴ (Process-of-Thought) リーゼニング

Process-of-Thought Reasoning for Videos

arXiv:2602.07689v1 Announce Type: new Abstract: ビデオ・アンダースタンディングは、視覚的内容を認識するだけでなく、長期でノイズのある観測に対して時間的根拠に基づいた多段階の推論を行うことを必要としています。私たちは、ビデオ推論を軽量かつ検証可能なステップのシークエンスに構造化することで、推論プロセスを明示化する「プロセス・オブ・スローヴ (PoT) ...

Original: arXiv:2602.07689v1 Announce Type: new Abstract: Video understanding requires not only recognizing visual content but also performing temporally grounded, multi-step reasoning over long and noisy obse...

arxiv_cs_cv 2026/2/10

構造化された輸送帯石炭シーンにおける非構造化な异物异常检测与像素级定位のための多分岐融合および意味的偏異アンカー付け

Semantic-Deviation-Anchored Multi-Branch Fusion for Unsupervised Anomaly Detection and Localization in Unstructured Conveyor-Belt Coal Scenes

arXiv:2602.07694v1 Announce Type: new 要約: 輸送帯石炭シーンにおける信頼性の高い异物异常検出とピクセルレベルの定位は、安全かつ知的な採鉱運営のために不可欠です。このタスクは、石炭と脈石がランダムに積み上げられている、背景が複雑かつ多様な、そして异物が低コントラスト、変形、および被覆を示すために非常に困難です。これらの特性は异物とその周囲が結合しており、構造化...

Original: arXiv:2602.07694v1 Announce Type: new Abstract: Reliable foreign-object anomaly detection and pixel-level localization in conveyor-belt coal scenes are essential for safe and intelligent mining opera...

arxiv_cs_cv 2026/2/10

医療画像セグメンテーションのためのハイブリッド・コルモゴロフ・アルノー・ネットワーク

A hybrid Kolmogorov-Arnold network for medical image segmentation

arXiv:2602.07702v1 Announce Type: new 要約:医療画像セグメンテーションは診断や治療計画において不可欠ですが、医療画像の内在的な複雑性と多様性、特にデータ内の非線形関係の捉え方の難しさにより、依然として大きな課題となっています。私たちは、セグメンテーション性能を向上させるために、コルモゴロフ・アルノー・ネットワーク (KANs) の表現力を U 字型エンコーダー...

Original: arXiv:2602.07702v1 Announce Type: new Abstract: Medical image segmentation plays a vital role in diagnosis and treatment planning, but remains challenging due to the inherent complexity and variabili...

arxiv_cs_cv 2026/2/10

自律運転のための全光学的セグメンテーション:回折性ニューラルネットワークに基づくアプローチ

All-Optical Segmentation via Diffractive Neural Networks for Autonomous Driving

arXiv:2602.07717v1 Announce Type: new 要約: セマンティックセグメンテーションと車線検出は、自律運転システムの重要なタスクである。従来の方法には、低遅延のリアルタイム対応に必要な大規模な画像計算と広範なアナログ-デジタル変換に伴う高エネルギーコストがかかる従来のディープニューラルネットワーク(DNN)が依存している。回折性光ニューラルネットワーク(DONN...

Original: arXiv:2602.07717v1 Announce Type: new Abstract: Semantic segmentation and lane detection are crucial tasks in autonomous driving systems. Conventional approaches predominantly rely on deep neural net...

arxiv_cs_cv 2026/2/10

PAND:軽量な細粒度視覚分類のためのプロンプト感知近傍蒸留

PAND: Prompt-Aware Neighborhood Distillation for Lightweight Fine-Grained Visual Classification

arXiv:2602.07768v1 Announce Type: new 要約:大規模な視覚言語モデル(VLM)から軽量なネットワークに知識を蒸留することは、固定されたプロンプトとグローバルな整合性に依存しているため、細粒度視覚分類(FGVC)において重要ながら困難です。これを解決するため、我々は、セマンティックなキャリブレーションと構造の伝達を分離する二段階のフレームワークである PAND(...

Original: arXiv:2602.07768v1 Announce Type: new Abstract: Distilling knowledge from large Vision-Language Models (VLMs) into lightweight networks is crucial yet challenging in Fine-Grained Visual Classificatio...

arxiv_cs_cv 2026/2/10

Rolling Sink:自動回帰型ビデオ拡散モデルにおける有限時間トレーニングと無限時間テストの架け橋

Rolling Sink: Bridging Limited-Horizon Training and Open-Ended Testing in Autoregressive Video Diffusion

arXiv:2602.07775v1 Announce Type: new Abstract: 最近、自動回帰型(AR)ビデオ拡散モデルは著しい性能を達成しました。しかし、トレーニング期間の制限により、長時間のホライズンでのテスト時にトレーニング - テストのギャップが発生し、急速な可視的劣化をもたらしています。トレーニング期間内におけるトレーニング - テストのギャップを研究した Self F...

Original: arXiv:2602.07775v1 Announce Type: new Abstract: Recently, autoregressive (AR) video diffusion models has achieved remarkable performance. However, due to their limited training durations, a train-tes...

arxiv_cs_cv 2026/2/10

予測安全と飢餓回避制約に基づく確率感知反事実交通信号制御:Vizion ベースセンシングの活用

Uncertainty-Aware Counterfactual Traffic Signal Control with Predictive Safety and Starvation-Avoidance Constraints Using Vision-Based Sensing

arXiv:2602.07784v1 発表タイプ:new 概要:適応型交通信号制御の実世界展開は、今日では、ビジョンベースのパースプの不確実性、明示的な安全性、および主にシミュレーションで学習・検証された非解釈可能な制御政策に関連する不確実性のため、まだ限定的なものに限られています。本論文では、UcatSc というモデルベースの交通信号制御システムを提案します。UcatSc は、部分的な可観測性...

Original: arXiv:2602.07784v1 Announce Type: new Abstract: Real-world deployment of adaptive traffic signal control, to date, remains limited due to the uncertainty associated with vision-based perception, impl...

arxiv_cs_cv 2026/2/10

VideoTemp-o3: エージェント的思考における時間的アンカリングと動画理解の調和

VideoTemp-o3: Harmonizing Temporal Grounding and Video Understanding in Agentic Thinking-with-Videos

arXiv:2602.07801v1 Announce Type: new Abstract: 長尺動画理解において、従来の等間隔フレームサンプリングは重要な視覚証拠を捕捉できないことが多く、パフォーマンスが低下し、幻覚(hallucinations)が増大する。これに対抗するため、近年、loclize-clip-answerパイプラインを採用した「思考付き動画(thinking-with-vid...

Original: arXiv:2602.07801v1 Announce Type: new Abstract: In long-video understanding, conventional uniform frame sampling often fails to capture key visual evidence, leading to degraded performance and increa...

arxiv_cs_cv 2026/2/10

オープンソースの AI 生成画像検出モデルの即座の性能はどの程度か:包括的なベンチマーク研究

How well are open sourced AI-generated image detection models out-of-the-box: A comprehensive benchmark study

arXiv:2602.07814v1 発表タイプ:新しい 要約: AI 生成画像がデジタルプラットフォームに増大するにつれ、信頼できる検出手法は誤情報の対策とコンテンツの真実性を維持する上で不可欠なものとなっており、多数のディープフェイク検出手法が提案されています。しかし、既存のベンチマークはほとんどがファインチューニング済みのモデルを評価しており、実務家にとって最も一般的なデプロイメントシナリオ...

Original: arXiv:2602.07814v1 Announce Type: new Abstract: As AI-generated images proliferate across digital platforms, reliable detection methods have become critical for combating misinformation and maintaini...

arxiv_cs_cv 2026/2/10

ファシアルイメージからの変則的年齢推定:ビジョン言語モデルと従来のアーキテクチャの総合的なベンチマーク比較

Out of the box age estimation through facial imagery: A Comprehensive Benchmark of Vision-Language Models vs. out-of-the-box Traditional Architectures

arXiv:2602.07815v1 Announce Type: new Abstract: 年齢推定はコンテンツモデレーション、年齢確認、ディープフェイク検出において不可欠であるが、現代的なビジョン言語モデル(VLM)と専門的な年齢推定アーキテクチャを系統的に比較した先例的なベンチマークは存在しない。我々は、公開されたプリトレーニング済み重みを持つ 22 の専門的アーキテクチャと 12 の汎用...

Original: arXiv:2602.07815v1 Announce Type: new Abstract: Facial age estimation is critical for content moderation, age verification, and deepfake detection, yet no prior benchmark has systematically compared ...

arxiv_cs_cv 2026/2/10

物理学への回帰:SMS MRI 再構築のためのオペレータ指導型生成パス

Back to Physics: Operator-Guided Generative Paths for SMS MRI Reconstruction

arXiv:2602.07820v1 告知 タイプ: 新しい 要約: 平面方向のアンダースメープリングを併用した同時複数スライス (SMS) イメージングは高速度 MRI を可能にしつつも、強い結合された逆問題を引き起こし、スライス間の決定論的な干渉と k 空間データの欠如が生じます。多くの拡散ベースの再構築モデルは、高斯ノイズの腐敗を前提としており、SMS 物理学を取り込むために追加の一貫性ステ...

Original: arXiv:2602.07820v1 Announce Type: new Abstract: Simultaneous multi-slice (SMS) imaging with in-plane undersampling enables highly accelerated MRI but yields a strongly coupled inverse problem with de...

arxiv_cs_cv 2026/2/10

Open-Text Aerial Detection: 航空視覚グウンディングと検出のための統一された枠組み

Open-Text Aerial Detection: A Unified Framework For Aerial Visual Grounding And Detection

arXiv:2602.07827v1 発表型:新規 要約: 語彙開泛航空検出 (OVAD) とリモートセンシング視覚グウンディング (RSVG) が、航空観測の理解のための 2 つの重要なパラダイムとして浮上しました。しかし、それぞれのパラダイムは孤立して動作する際、本質的な限界を抱えています: OVAD は粗いカテゴリーレベルの半義みに限定され、RSVG は単一目標の局所化に構造的に制限されてい...

Original: arXiv:2602.07827v1 Announce Type: new Abstract: Open-Vocabulary Aerial Detection (OVAD) and Remote Sensing Visual Grounding (RSVG) have emerged as two key paradigms for aerial scene understanding. Ho...

arxiv_cs_cv 2026/2/10

SPD-Faith ベンチ: 多画像大規模言語モデルの Chain-of-Thought における忠実性の診断と向上

SPD-Faith Bench: Diagnosing and Improving Faithfulness in Chain-of-Thought for Multimodal Large Language Models

arXiv:2602.07833v1 Announce Type: new 要旨: Chain-of-Thought(思考の連鎖)推論は、多画像大規模言語モデル(MLLMs)の解釈性を向上させるために広く利用されており、しかし生成された推論経路の忠実性はまだ不明確である。以前の研究は主に知覚的なホラーレーションに焦点を当てており、推論レベルの忠実性の不足は十分に探索されていない。言語的事前知識から...

Original: arXiv:2602.07833v1 Announce Type: new Abstract: Chain-of-Thought reasoning is widely used to improve the interpretability of multimodal large language models (MLLMs), yet the faithfulness of the gene...

arxiv_cs_cv 2026/2/10

VFace: 訓練を要さない拡散モデルベースのビデオフェイクロスワッピングへのアプローチ

VFace: A Training-Free Approach for Diffusion-Based Video Face Swapping

arXiv:2602.07835v1 発表タイプ:新規 要旨:我々は、高品質なビデオフェイクロスワッピングのための訓練を要さない plug-and-play メソッド、すなわち VFace を提案します。画像ベースのフェイクロスワッピングアプローチを拡散モデルに基づき構築する際、この方法はシームレスに統合可能です。まず、生成と保ちた鍵の同一性特徴を容易にする周波数スペクトムアテンション挿入技術を紹...

Original: arXiv:2602.07835v1 Announce Type: new Abstract: We present a training-free, plug-and-play method, namely VFace, for high-quality face swapping in videos. It can be seamlessly integrated with image-ba...

arxiv_cs_cv 2026/2/10

3D 整合性を維持する動画世界モデルのための幾何気配する回転位置埋め込み

Geometry-Aware Rotary Position Embedding for Consistent Video World Model

arXiv:2602.07854v1 Announce Type: new 概要:明示的なカメラ制御下での将来の観察をシミュレートする予測型世界モデルは、インタラクティブ AI において基本となります。急速な進展にもかかわらず、現在のシステムには空間的恒常性(spatial persistence)が欠けており、長時間の軌道上で安定したシーン構造を維持できず、カメラが以前観察した場所に戻ると詳細な...

Original: arXiv:2602.07854v1 Announce Type: new Abstract: Predictive world models that simulate future observations under explicit camera control are fundamental to interactive AI. Despite rapid advances, curr...

arxiv_cs_cv 2026/2/10

超高速運動ブレード画像から 3D 形状の復元

Recovering 3D Shapes from Ultra-Fast Motion-Blurred Images

arXiv:2602.07860v1 発表タイプ: 新しい 要約: 我々は、超高速の運動ブレード画像から 3D 形状の復元という問題を検討する。従来の静的画像からの 3D 再建は広く研究されているが、極端な運動ブレードの画像から幾何学を復元することは依然として困難である。此类シナリオは、スポーツにおける高速移動の物体(例:ボール)や回転する機械といった自然環境および産業環境の両方で頻繁に起こる。こ...

Original: arXiv:2602.07860v1 Announce Type: new Abstract: We consider the problem of 3D shape recovery from ultra-fast motion-blurred images. While 3D reconstruction from static images has been extensively stu...

arxiv_cs_cv 2026/2/10

構想による構造の思考:制約された流形上の論推理を通じた空間知能の評価

Thinking in Structures: Evaluating Spatial Intelligence through Reasoning on Constrained Manifolds

arXiv:2602.07864v1 Announce Type: new 摘要:空間知能は、物理世界における視覚 - 言語モデル(VLM)にとって不可欠ですが、多くのベンチマークはモデルが 2D の短絡を利用できるようになった制約の少ないシチュエーションで評価されているためです。私たちは、複雑な実世界 3D 構造に基づき、幾何学的・トポロジ学的・物理的な制約によって可能とされる構成が厳密に制御さ...

Original: arXiv:2602.07864v1 Announce Type: new Abstract: Spatial intelligence is crucial for vision--language models (VLMs) in the physical world, yet many benchmarks evaluate largely unconstrained scenes whe...