12673 articles
構造化された輸送帯石炭シーンにおける非構造化な异物异常检测与像素级定位のための多分岐融合および意味的偏異アンカー付け
Semantic-Deviation-Anchored Multi-Branch Fusion for Unsupervised Anomaly Detection and Localization in Unstructured Conveyor-Belt Coal Scenes
arXiv:2602.07694v1 Announce Type: new 要約: 輸送帯石炭シーンにおける信頼性の高い异物异常検出とピクセルレベルの定位は、安全かつ知的な採鉱運営のために不可欠です。このタスクは、石炭と脈石がランダムに積み上げられている、背景が複雑かつ多様な、そして异物が低コントラスト、変形、および被覆を示すために非常に困難です。これらの特性は异物とその周囲が結合しており、構造化...
Original: arXiv:2602.07694v1 Announce Type: new Abstract: Reliable foreign-object anomaly detection and pixel-level localization in conveyor-belt coal scenes are essential for safe and intelligent mining opera...
医療画像セグメンテーションのためのハイブリッド・コルモゴロフ・アルノー・ネットワーク
A hybrid Kolmogorov-Arnold network for medical image segmentation
arXiv:2602.07702v1 Announce Type: new 要約:医療画像セグメンテーションは診断や治療計画において不可欠ですが、医療画像の内在的な複雑性と多様性、特にデータ内の非線形関係の捉え方の難しさにより、依然として大きな課題となっています。私たちは、セグメンテーション性能を向上させるために、コルモゴロフ・アルノー・ネットワーク (KANs) の表現力を U 字型エンコーダー...
Original: arXiv:2602.07702v1 Announce Type: new Abstract: Medical image segmentation plays a vital role in diagnosis and treatment planning, but remains challenging due to the inherent complexity and variabili...
自律運転のための全光学的セグメンテーション:回折性ニューラルネットワークに基づくアプローチ
All-Optical Segmentation via Diffractive Neural Networks for Autonomous Driving
arXiv:2602.07717v1 Announce Type: new 要約: セマンティックセグメンテーションと車線検出は、自律運転システムの重要なタスクである。従来の方法には、低遅延のリアルタイム対応に必要な大規模な画像計算と広範なアナログ-デジタル変換に伴う高エネルギーコストがかかる従来のディープニューラルネットワーク(DNN)が依存している。回折性光ニューラルネットワーク(DONN...
Original: arXiv:2602.07717v1 Announce Type: new Abstract: Semantic segmentation and lane detection are crucial tasks in autonomous driving systems. Conventional approaches predominantly rely on deep neural net...
PAND:軽量な細粒度視覚分類のためのプロンプト感知近傍蒸留
PAND: Prompt-Aware Neighborhood Distillation for Lightweight Fine-Grained Visual Classification
arXiv:2602.07768v1 Announce Type: new 要約:大規模な視覚言語モデル(VLM)から軽量なネットワークに知識を蒸留することは、固定されたプロンプトとグローバルな整合性に依存しているため、細粒度視覚分類(FGVC)において重要ながら困難です。これを解決するため、我々は、セマンティックなキャリブレーションと構造の伝達を分離する二段階のフレームワークである PAND(...
Original: arXiv:2602.07768v1 Announce Type: new Abstract: Distilling knowledge from large Vision-Language Models (VLMs) into lightweight networks is crucial yet challenging in Fine-Grained Visual Classificatio...
Rolling Sink:自動回帰型ビデオ拡散モデルにおける有限時間トレーニングと無限時間テストの架け橋
Rolling Sink: Bridging Limited-Horizon Training and Open-Ended Testing in Autoregressive Video Diffusion
arXiv:2602.07775v1 Announce Type: new Abstract: 最近、自動回帰型(AR)ビデオ拡散モデルは著しい性能を達成しました。しかし、トレーニング期間の制限により、長時間のホライズンでのテスト時にトレーニング - テストのギャップが発生し、急速な可視的劣化をもたらしています。トレーニング期間内におけるトレーニング - テストのギャップを研究した Self F...
Original: arXiv:2602.07775v1 Announce Type: new Abstract: Recently, autoregressive (AR) video diffusion models has achieved remarkable performance. However, due to their limited training durations, a train-tes...
予測安全と飢餓回避制約に基づく確率感知反事実交通信号制御:Vizion ベースセンシングの活用
Uncertainty-Aware Counterfactual Traffic Signal Control with Predictive Safety and Starvation-Avoidance Constraints Using Vision-Based Sensing
arXiv:2602.07784v1 発表タイプ:new 概要:適応型交通信号制御の実世界展開は、今日では、ビジョンベースのパースプの不確実性、明示的な安全性、および主にシミュレーションで学習・検証された非解釈可能な制御政策に関連する不確実性のため、まだ限定的なものに限られています。本論文では、UcatSc というモデルベースの交通信号制御システムを提案します。UcatSc は、部分的な可観測性...
Original: arXiv:2602.07784v1 Announce Type: new Abstract: Real-world deployment of adaptive traffic signal control, to date, remains limited due to the uncertainty associated with vision-based perception, impl...
VideoTemp-o3: エージェント的思考における時間的アンカリングと動画理解の調和
VideoTemp-o3: Harmonizing Temporal Grounding and Video Understanding in Agentic Thinking-with-Videos
arXiv:2602.07801v1 Announce Type: new Abstract: 長尺動画理解において、従来の等間隔フレームサンプリングは重要な視覚証拠を捕捉できないことが多く、パフォーマンスが低下し、幻覚(hallucinations)が増大する。これに対抗するため、近年、loclize-clip-answerパイプラインを採用した「思考付き動画(thinking-with-vid...
Original: arXiv:2602.07801v1 Announce Type: new Abstract: In long-video understanding, conventional uniform frame sampling often fails to capture key visual evidence, leading to degraded performance and increa...
オープンソースの AI 生成画像検出モデルの即座の性能はどの程度か:包括的なベンチマーク研究
How well are open sourced AI-generated image detection models out-of-the-box: A comprehensive benchmark study
arXiv:2602.07814v1 発表タイプ:新しい 要約: AI 生成画像がデジタルプラットフォームに増大するにつれ、信頼できる検出手法は誤情報の対策とコンテンツの真実性を維持する上で不可欠なものとなっており、多数のディープフェイク検出手法が提案されています。しかし、既存のベンチマークはほとんどがファインチューニング済みのモデルを評価しており、実務家にとって最も一般的なデプロイメントシナリオ...
Original: arXiv:2602.07814v1 Announce Type: new Abstract: As AI-generated images proliferate across digital platforms, reliable detection methods have become critical for combating misinformation and maintaini...
ファシアルイメージからの変則的年齢推定:ビジョン言語モデルと従来のアーキテクチャの総合的なベンチマーク比較
Out of the box age estimation through facial imagery: A Comprehensive Benchmark of Vision-Language Models vs. out-of-the-box Traditional Architectures
arXiv:2602.07815v1 Announce Type: new Abstract: 年齢推定はコンテンツモデレーション、年齢確認、ディープフェイク検出において不可欠であるが、現代的なビジョン言語モデル(VLM)と専門的な年齢推定アーキテクチャを系統的に比較した先例的なベンチマークは存在しない。我々は、公開されたプリトレーニング済み重みを持つ 22 の専門的アーキテクチャと 12 の汎用...
Original: arXiv:2602.07815v1 Announce Type: new Abstract: Facial age estimation is critical for content moderation, age verification, and deepfake detection, yet no prior benchmark has systematically compared ...
物理学への回帰:SMS MRI 再構築のためのオペレータ指導型生成パス
Back to Physics: Operator-Guided Generative Paths for SMS MRI Reconstruction
arXiv:2602.07820v1 告知 タイプ: 新しい 要約: 平面方向のアンダースメープリングを併用した同時複数スライス (SMS) イメージングは高速度 MRI を可能にしつつも、強い結合された逆問題を引き起こし、スライス間の決定論的な干渉と k 空間データの欠如が生じます。多くの拡散ベースの再構築モデルは、高斯ノイズの腐敗を前提としており、SMS 物理学を取り込むために追加の一貫性ステ...
Original: arXiv:2602.07820v1 Announce Type: new Abstract: Simultaneous multi-slice (SMS) imaging with in-plane undersampling enables highly accelerated MRI but yields a strongly coupled inverse problem with de...
Open-Text Aerial Detection: 航空視覚グウンディングと検出のための統一された枠組み
Open-Text Aerial Detection: A Unified Framework For Aerial Visual Grounding And Detection
arXiv:2602.07827v1 発表型:新規 要約: 語彙開泛航空検出 (OVAD) とリモートセンシング視覚グウンディング (RSVG) が、航空観測の理解のための 2 つの重要なパラダイムとして浮上しました。しかし、それぞれのパラダイムは孤立して動作する際、本質的な限界を抱えています: OVAD は粗いカテゴリーレベルの半義みに限定され、RSVG は単一目標の局所化に構造的に制限されてい...
Original: arXiv:2602.07827v1 Announce Type: new Abstract: Open-Vocabulary Aerial Detection (OVAD) and Remote Sensing Visual Grounding (RSVG) have emerged as two key paradigms for aerial scene understanding. Ho...
SPD-Faith ベンチ: 多画像大規模言語モデルの Chain-of-Thought における忠実性の診断と向上
SPD-Faith Bench: Diagnosing and Improving Faithfulness in Chain-of-Thought for Multimodal Large Language Models
arXiv:2602.07833v1 Announce Type: new 要旨: Chain-of-Thought(思考の連鎖)推論は、多画像大規模言語モデル(MLLMs)の解釈性を向上させるために広く利用されており、しかし生成された推論経路の忠実性はまだ不明確である。以前の研究は主に知覚的なホラーレーションに焦点を当てており、推論レベルの忠実性の不足は十分に探索されていない。言語的事前知識から...
Original: arXiv:2602.07833v1 Announce Type: new Abstract: Chain-of-Thought reasoning is widely used to improve the interpretability of multimodal large language models (MLLMs), yet the faithfulness of the gene...
VFace: 訓練を要さない拡散モデルベースのビデオフェイクロスワッピングへのアプローチ
VFace: A Training-Free Approach for Diffusion-Based Video Face Swapping
arXiv:2602.07835v1 発表タイプ:新規 要旨:我々は、高品質なビデオフェイクロスワッピングのための訓練を要さない plug-and-play メソッド、すなわち VFace を提案します。画像ベースのフェイクロスワッピングアプローチを拡散モデルに基づき構築する際、この方法はシームレスに統合可能です。まず、生成と保ちた鍵の同一性特徴を容易にする周波数スペクトムアテンション挿入技術を紹...
Original: arXiv:2602.07835v1 Announce Type: new Abstract: We present a training-free, plug-and-play method, namely VFace, for high-quality face swapping in videos. It can be seamlessly integrated with image-ba...
3D 整合性を維持する動画世界モデルのための幾何気配する回転位置埋め込み
Geometry-Aware Rotary Position Embedding for Consistent Video World Model
arXiv:2602.07854v1 Announce Type: new 概要:明示的なカメラ制御下での将来の観察をシミュレートする予測型世界モデルは、インタラクティブ AI において基本となります。急速な進展にもかかわらず、現在のシステムには空間的恒常性(spatial persistence)が欠けており、長時間の軌道上で安定したシーン構造を維持できず、カメラが以前観察した場所に戻ると詳細な...
Original: arXiv:2602.07854v1 Announce Type: new Abstract: Predictive world models that simulate future observations under explicit camera control are fundamental to interactive AI. Despite rapid advances, curr...
超高速運動ブレード画像から 3D 形状の復元
Recovering 3D Shapes from Ultra-Fast Motion-Blurred Images
arXiv:2602.07860v1 発表タイプ: 新しい 要約: 我々は、超高速の運動ブレード画像から 3D 形状の復元という問題を検討する。従来の静的画像からの 3D 再建は広く研究されているが、極端な運動ブレードの画像から幾何学を復元することは依然として困難である。此类シナリオは、スポーツにおける高速移動の物体(例:ボール)や回転する機械といった自然環境および産業環境の両方で頻繁に起こる。こ...
Original: arXiv:2602.07860v1 Announce Type: new Abstract: We consider the problem of 3D shape recovery from ultra-fast motion-blurred images. While 3D reconstruction from static images has been extensively stu...
構想による構造の思考:制約された流形上の論推理を通じた空間知能の評価
Thinking in Structures: Evaluating Spatial Intelligence through Reasoning on Constrained Manifolds
arXiv:2602.07864v1 Announce Type: new 摘要:空間知能は、物理世界における視覚 - 言語モデル(VLM)にとって不可欠ですが、多くのベンチマークはモデルが 2D の短絡を利用できるようになった制約の少ないシチュエーションで評価されているためです。私たちは、複雑な実世界 3D 構造に基づき、幾何学的・トポロジ学的・物理的な制約によって可能とされる構成が厳密に制御さ...
Original: arXiv:2602.07864v1 Announce Type: new Abstract: Spatial intelligence is crucial for vision--language models (VLMs) in the physical world, yet many benchmarks evaluate largely unconstrained scenes whe...
WristMIR: 小児尺骨腕 X 線画像の放射学レポート駆動型粗細両層領域感知検索
WristMIR: Coarse-to-Fine Region-Aware Retrieval of Pediatric Wrist Radiographs with Radiology Report-Driven Learning
類似的骨折パターンを持つ腕の X 線画像を検出することは、臨床的に重要な手がかりが微妙であり、非常に局所化され、また重なっている解剖学的構造や変化する撮影角度によってしばしば隠蔽されているため困難です。さらに、ケースベースの医学画像検索用の大規模で高品質に注釈付けされたデータの希少さは、進歩を制限しています。当稿では、密度の高い放射学レポートと骨領域固有の局所化を活用し、手動画像レベルの注釈なしで...
Original: arXiv:2602.07872v1 Announce Type: new Abstract: Retrieving wrist radiographs with analogous fracture patterns is challenging because clinically important cues are subtle, highly localized and often o...
インターネット動画からの弱监督による 3D 幾何学基礎モデルのスケーラブルな適応
Scalable Adaptation of 3D Geometric Foundation Models via Weak Supervision from Internet Video
arXiv:2602.07891v1 Announce Type: new Abstract: 幾何学基礎モデルは 3D 復元における有望な候補を示していますが、その進展は多様で大規模な 3D 注釈の不足によって著しく制限されています。インターネット動画はほぼ無限の原データを提供しますが、地上真幾何学の欠如と観測ノイズの存在ゆえに、これを幾何学学習のスケーリングソースとして利用するのは困難です。こ...
Original: arXiv:2602.07891v1 Announce Type: new Abstract: Geometric foundation models show promise in 3D reconstruction, yet their progress is severely constrained by the scarcity of diverse, large-scale 3D an...
多言語・音声模型における実用的かつ効率的な量化カライブラートの見直し
Rethinking Practical and Efficient Quantization Calibration for Vision-Language Models
arXiv:2602.07899v1 Announce Type: new 要旨: 後訓練量化(PTQ)は、微調整を伴わずに大規模言語モデルをデプロイする主要なアプローチであり、PTQ における量化性能はカライブラートに強く影響を受けます。これに対し、多言語・音声模型(VLM)では、視覚トークンとテキストトークンの活性化分布や量化誤差への感受性の間に著しい差が存在し、PTQ 期間中の有効なカライブ...
Original: arXiv:2602.07899v1 Announce Type: new Abstract: Post-training quantization (PTQ) is a primary approach for deploying large language models without fine-tuning, and the quantized performance is often ...
VLM はどのプライバシー属性について合意し、どのように正確に予測するか
Which private attributes do VLMs agree on and predict well?
arXiv:2602.07931v1 Announce Type: new Abstract: 視覚言語モデル(VLM)は、画像内の視覚的属性を検出するためのゼロショット検出に広く使用されています。ここでは、オープンソースの VLM をプライバシー関連属性の認識に向けたゼロショット評価を提示します。VLM が強い合意を示す属性を特定し、人間と VLM の注釈における不一致のケースについても議論しま...
Original: arXiv:2602.07931v1 Announce Type: new Abstract: Visual Language Models (VLMs) are often used for zero-shot detection of visual attributes in the image. We present a zero-shot evaluation of open-sourc...