4037 articles

arxiv_cs_cv 2026/2/10

トポロジカルシグネチャーとグラデントヒストグラム：眼底画像分類のための比較研究

Topological Signatures vs. Gradient Histograms: A Comparative Study for Medical Image Classification

arXiv:2507.03006v2 Announce Type: replace 摘要：本稿は、眼底画像分類において、Histogram of Oriented Gradients (HOG) と Topological Data Analysis (TDA) という、本質的に異なる特徴量抽出のパラダイムを比較検討する。HOG は、空間領域内における勾配方向分布をモデル化することで局所的構造情報...

Original: arXiv:2507.03006v2 Announce Type: replace Abstract: This work presents a comparative evaluation of two fundamentally different feature extraction paradigms--Histogram of Oriented Gradients (HOG) and ...

arxiv_cs_cv 2026/2/10

"PhyWorldBench"：テキストから動画への生成における物理的真実性の包括的評価

"PhyWorldBench": A Comprehensive Evaluation of Physical Realism in Text-to-Video Models

arXiv:2507.13428v2 Announce Type: replace Abstract: 動画生成モデルは、高品質で写真真似たコンテンツの作成において著進歩を遂げましたが、物理現象を正確にシミュレートする能力は依然として未解決の重要な課題となっています。本研究では、物理法則への準拠を基準として動画生成モデルを評価するための包括的なベンチマーク「PhyWorldBench」を提案します...

Original: arXiv:2507.13428v2 Announce Type: replace Abstract: Video generation models have achieved remarkable progress in creating high-quality, photorealistic content. However, their ability to accurately si...

arxiv_cs_cv 2026/2/10

SegQuant: 拡散モデルのための意味認識型かつ汎用性の高い量化フレームワーク

SegQuant: A Semantics-Aware and Generalizable Quantization Framework for Diffusion Models

arXiv:2507.14811v5 Announce Type: replace Abstract: 拡散モデルは卓越した生成能力を示していますが、計算コストが高いため、リソース制約のあるまたは低遅延要求のある環境への展開において重大な課題を呈します。量化はモデルサイズと計算コストを削減する効果的な手段であり、事前学習済みモデルとの互換性を保ちながら再学習や訓練データ不要という特徴から、ポストト...

Original: arXiv:2507.14811v5 Announce Type: replace Abstract: Diffusion models have demonstrated exceptional generative capabilities but are computationally intensive, posing significant challenges for deploym...

arxiv_cs_cv 2026/2/10

UniLiP: CLIP の統一された多モーダル理解、生成、編集のための適応

UniLiP: Adapting CLIP for Unified Multimodal Understanding, Generation and Editing

arXiv:2507.23278v3 Announce Type: replace 要約: 本稿では、CLIP を多モーダル理解、生成、および編集用に適応させる統一されたフレームワークである UniLIP を提案します。CLIP は理解能力において優れていますが、統一視覚エンコーダーとして求められる再構成能力に欠けています。しかし、従来の CLIP ベースの統一手法は理解と再構成のバランスを取らず...

Original: arXiv:2507.23278v3 Announce Type: replace Abstract: In this paper, we propose UniLIP, a unified framework that adapts CLIP for multimodal understanding, generation and editing. Although CLIP excels a...

arxiv_cs_cv 2026/2/10

Mamba による空間 - 周波数運動知覚によるビデオの隠れた物体検出

Mamba-based Spatio-Frequency Motion Perception for Video Camouflaged Object Detection

arXiv:2507.23601v2 公告型: 更新要旨: 既存のビデオの隠れた物体検出（VCOD）手法は、主に空間的な外観に基づいて運動を認識しています。しかし、VCOD では前面と後面の高な相似性があり、そのような特徴（例：色やテクスチャ）の識別性が制限されます。最近の研究は、周波数特徴が外観の限界を補完し、かつスペクトルエネルギーの動的変化を通じて運動を認識できることを示しています。また、...

Original: arXiv:2507.23601v2 Announce Type: replace Abstract: Existing video camouflaged object detection (VCOD) methods primarily rely on spatial appearances for motion perception. However, the high foregroun...

arxiv_cs_cv 2026/2/10

MAMBO-G: 尺度感知による強化された導引の改善

MAMBO-G: Magnitude-Aware Mitigation for Boosted Guidance

arXiv:2508.03442v4 発表タイプ：置換要約：高品質なテキストから画像、およびテキストからビデオの生成は通常、クラスファイヤーフリー導引 (CFG) に依存しますが、最適な結果を得るためには計算コストの高いサンプリングスケジュールが必要です。この研究では、動的に導引の規模を最適化することで計算コストを劇的に削減する、学習なしの加速フレームワーク「MAMBO-G」を提案します。標準...

Original: arXiv:2508.03442v4 Announce Type: replace Abstract: High-fidelity text-to-image and text-to-video generation typically relies on Classifier-Free Guidance (CFG), but achieving optimal results often de...

arxiv_cs_cv 2026/2/10

WeTok: 高解像度視覚再構築のための強力な離散トークン化

WeTok: Powerful Discrete Tokenization for High-Fidelity Visual Reconstruction

arXiv:2508.05599v3 発表タイプ：置換要約：視覚トークナイザーは視覚生成における重要な構成要素です。しかし、既存のトークナイザーは、圧縮率と再構築精度との間のトレードオフが満足できないという課題を抱えています。このギャップを埋めるために、我々は過去のリードトークナイザーを超えた 2 つの主要なイノベーションにより、強力かつ緊迫感のある WeTok トークナイザーを導入しました。(...

Original: arXiv:2508.05599v3 Announce Type: replace Abstract: Visual tokenizer is a critical component for vision generation. However, the existing tokenizers often face unsatisfactory trade-off between compre...

arxiv_cs_cv 2026/2/10

最適な平面を用いた頑健な画像縫合：RopStitch

Robust Image Stitching with Optimal Plane

arXiv:2508.05903v2 発表タイプ：置き換え摘要：当社は、頑健性と自然性を兼ね備えた非监督型深層画像縫合フレームワークである\textit{RopStitch}を導入します。\textit{RopStitch}の頑健性を保証するために、内容認識の汎用的事前知識を双支構造（dual-branch architecture）を通じて画像縫合モデルに組み込みます。このアプローチは、粗粒度...

Original: arXiv:2508.05903v2 Announce Type: replace Abstract: We present \textit{RopStitch}, an unsupervised deep image stitching framework with both robustness and naturalness. To ensure the robustness of \te...

arxiv_cs_cv 2026/2/10

ハイパースペクトルイメージング

Hyperspectral Imaging

arXiv:2508.08107v2 発表タイプ：代替要旨：ハイパースペクトルイメージング（HSI）は、空間情報とスペクトル情報を同時に捉えることで、物質、化学的、生学的特性の無傷・ラベルフリーな解析を可能にする高度な検知モードです。このガイドブックは、HSI に関する物理的原理やセンサーアーキテクチャから、データ収集・校正・補正の主要な工程までを包括的に解説します。一般的なデータ形式をまとめ、...

Original: arXiv:2508.08107v2 Announce Type: replace Abstract: Hyperspectral imaging (HSI) is an advanced sensing modality that simultaneously captures spatial and spectral information, enabling non-invasive, l...

arxiv_cs_cv 2026/2/10

Virtual Community: Humans、ロボットの共存社会のためのオープンワールド

Virtual Community: An Open World for Humans, Robots, and Society

arXiv:2508.14893v3 Announce Type: replace 要旨：AI とロボティクスの急速な進歩により、人間とロボットが共有されたコミュニティ内で共存し始めることが、人類社会に決定的な変革をもたらす可能性があります。これは新たな機会と課題をもたらすものです。この未来を探るために、本稿では「Virtual Community」という、物理演算エンジンに基づき、実世界における...

Original: arXiv:2508.14893v3 Announce Type: replace Abstract: The rapid progress in AI and Robotics may lead to a profound societal transformation, as humans and robots begin to coexist within shared communiti...

arxiv_cs_cv 2026/2/10

たった一度のポーズ推定：モノクシャル RGB からカテゴリレベルの 9D オブジェクトポーズ推定を行うミニマリスト検出転換器

You Only Pose Once: A Minimalist's Detection Transformer for Monocular RGB Category-level 9D Multi-Object Pose Estimation

arXiv:2508.14965v2 発表型: 差し替え要約：単一の RGB 画像から未認識のインスタンスの全 9-Dof のポーズを正確に復元する問題は、ロボティクスと自動化の核心的課題である。既存の多くの解法は、まだ偽深度、CAD モデル、または 2D 検出とポーズ推定を分離するマルチステージの級連に依存している。カテゴリレベルで直接学習する、よりシンプルな RGB だけの代替手段の必要性を...

Original: arXiv:2508.14965v2 Announce Type: replace Abstract: Accurately recovering the full 9-DoF pose of unseen instances within specific categories from a single RGB image remains a core challenge for robot...

arxiv_cs_cv 2026/2/10

SpecPrune-VLA: アクション感知自己推測剪定によるビジョン言語アクションモデルの加速

SpecPrune-VLA: Accelerating Vision-Language-Action Models via Action-Aware Self-Speculative Pruning

arXiv:2509.05614v2 発表タイプ：置き換え要約: 剪定は、計算負荷の高いモデルの加速に不可欠な技法であり、無視される重要な値の計算を除去することで機能します。最近、ビジョン言語アクション（VLA）モデルの推論加速にも応用されています。しかし、既存の加速手法は、現在のアクションステップからの局所情報に焦点を当てることに留まり、全球的コンテキストを無視しており、いくつかのシナリオにお...

Original: arXiv:2509.05614v2 Announce Type: replace Abstract: Pruning is a typical acceleration technique for compute-bound models by removing computation on unimportant values. Recently, it has been applied t...

arxiv_cs_cv 2026/2/10

HyPlaneHead: フルヘッド画像合成におけるトライプラン像表現の再考

HyPlaneHead: Rethinking Tri-plane-like Representations in Full-Head Image Synthesis

arXiv:2509.16748v2 Announce Type: replace 要旨：トライプランのような表現は、3D 認識 GAN の頭部画像合成およびその他の 3D オブジェクト/シーンモデリングタスクにおいて、その効率性から広く採用されてきた。しかし、Cartesian 座標投影による特徴量のクエリは、特徴量の絡み合いを引き起こし、鏡像アートを生じる傾向がある。最近の研究である Sph...

Original: arXiv:2509.16748v2 Announce Type: replace Abstract: Tri-plane-like representations have been widely adopted in 3D-aware GANs for head image synthesis and other 3D object/scene modeling tasks due to t...

arxiv_cs_cv 2026/2/10

CoBEVMoE: ヘテロジェニシティアWAREな特徴融合と動的 Mixture-of-Experts を活用した協調感知

CoBEVMoE: Heterogeneity-aware Feature Fusion with Dynamic Mixture-of-Experts for Collaborative Perception

arXiv:2509.17107v2 Announce Type: replace 摘要：協調感知は、複数のエージェント間で情報を共有することで感測範囲を拡大し、感知精度を向上させることを目的としています。しかし、視点や位置の違いにより、エージェントはヘテロジェニティな観測データを取得する傾向にあります。既存の中間融合手法は主に類似した特徴を揃えることに焦点を当てており、エージェント間の特異な...

Original: arXiv:2509.17107v2 Announce Type: replace Abstract: Collaborative perception aims to extend sensing coverage and improve perception accuracy by sharing information among multiple agents. However, due...

arxiv_cs_cv 2026/2/10

テキストと同様に画像を読み解く：VLM における並列的な画像理解

Reading Images Like Texts: Sequential Image Understanding in Vision-Language Models

arXiv:2509.19191v2 発表タイプ：置換抜粋：視覚言語モデル（VLM）は、様々な実世界タスクにおいて驚くべきパフォーマンスを示しています。しかし、既存の VLM は画像情報をシリアライズする手法で処理しており、人間の視覚の並列的な性質とは大きく異なります。さらに、その不透明な内部機構は、より深い理解やアーキテクチャの革新を阻害しています。人間の視覚の二流仮説に基づく「何を」（wha...

Original: arXiv:2509.19191v2 Announce Type: replace Abstract: Vision-Language Models (VLMs) have demonstrated remarkable performance across a variety of real-world tasks. However, existing VLMs typically proce...

arxiv_cs_cv 2026/2/10

MedVSR: クロス状態空間伝播を用いた医療ビデオスーパー・レゾリューション

MedVSR: Medical Video Super-Resolution with Cross State-Space Propagation

arXiv:2509.21265v2 Announce Type: replace 要旨: 高解像度（HR）医療動画は正確な診断に不可欠ですが、ハードウェアの制限や生理学的制約により取得が困難です。臨床的に収集された低解像度（LR）医療動画には、ビデオスーパー・レゾリューション（VSR）モデルが抱える独自の課題があり、それはカメラのブレ、ノイズ、および急激なフレーム遷移などが含まれ、これらは大きな...

Original: arXiv:2509.21265v2 Announce Type: replace Abstract: High-resolution (HR) medical videos are vital for accurate diagnosis, yet are hard to acquire due to hardware limitations and physiological constra...

arxiv_cs_cv 2026/2/10

Residual Vector Quantization For Communication-Efficient Multi-Agent Perception

arXiv:2509.21464v2 Announce Type: replace Abstract: Multi-agent collaborative perception (CP) improves scene understanding by sharing information across connected agents such as autonomous vehicles, u...

Original: arXiv:2509.21464v2 Announce Type: replace Abstract: Multi-agent collaborative perception (CP) improves scene understanding by sharing information across connected agents such as autonomous vehicles, ...

arxiv_cs_cv 2026/2/10

Vid-LLM: 再構築・推論のシナジーを備えたコンパクトなビデオベースの 3 次元マルチモーダル LLM

Vid-LLM: A Compact Video-based 3D Multimodal LLM with Reconstruction-Reasoning Synergy

arXiv:2509.24385v3 Announce Type: replace 要約: マルチモーダル大規模言語モデル（MLLM）の最近の進展により、2 次元分野におけるビジョン・ランゲージ（VL）推論が大幅に向上しました。しかし、これらの機能を 3 次元シーン理解へと拡張するには依然として大きな課題が残っています。既存の 3 次元マルチモーダル大規模言語モデル（3D-MLLM）は多くの場合、...

Original: arXiv:2509.24385v3 Announce Type: replace Abstract: Recent developments in Multimodal Large Language Models (MLLMs) have significantly improved Vision-Language (VL) reasoning in 2D domains. However, ...

arxiv_cs_cv 2026/2/10

PAL-Net: P Patch Attention を備えた点ごとの CNN を用いた 3D 顔地標的定位

PAL-Net: A Point-Wise CNN with Patch-Attention for 3D Facial Landmark Localization

arXiv:2510.00910v2 Announce Type: replace 摘要:3D 顔スキャン上の解剖学的地標の手動アノテーションは、時間のかかる専門性を要するタスクであるにもかかわらず、臨床評価、形態計量解析および頭面部研究において依然として重要である。複数の深層学習方法が顔地標的定位のために提案されながら、多くのものは擬似地標に焦点を当てているか、複雑な入力表現を必要とし、これによ...

Original: arXiv:2510.00910v2 Announce Type: replace Abstract: Manual annotation of anatomical landmarks on 3D facial scans is a time-consuming and expertise-dependent task, yet it remains critical for clinical...

arxiv_cs_cv 2026/2/10

RAP: 3D Rasterization Augmented End-to-End Planning

arXiv:2510.04333v2 Announce Type: replace 要約：エンドツーエンドの運転政策をトレーニングするための複製学習は、専門家のデモンストレーションのみに基づいて訓練されます。クローズドループ環境に展開されたこのような政策は、回復データを欠如させます：小さな過ちは修正されず、迅速に失敗に引き込まれます。有望な方向として、ログされたパスを超えた代替視点と軌道の生成が...

Original: arXiv:2510.04333v2 Announce Type: replace Abstract: Imitation learning for end-to-end driving trains policies only on expert demonstrations. Once deployed in a closed loop, such policies lack recover...