4037 articles

arxiv_cs_cv 2026/4/20

Fed3D: 連合 3D 物体検知

Fed3D: Federated 3D Object Detection

arXiv:2604.15795v1 Announce Type: new Abstract: サーバー 1 つで訓練された 3D 物体検知モデルは、自律型運転、ロボット操作、拡張現実のシナリオにおいて重要な役割を果たしています。しかし、大規模な 3D ス cenas の探求のために多ボット感知ネットワークでデプロイされる場合、既存の大部分の方法は深刻なプライバシー懸念に直面しています。また、3D...

Original: arXiv:2604.15795v1 Announce Type: new Abstract: 3D object detection models trained in one server plays an important role in autonomous driving, robotics manipulation, and augmented reality scenarios....

arxiv_cs_cv 2026/4/20

SegMix: シャッフルに基づくフィードバック学習による病理画像のセマンティックセグメンテーション

SegMix:Shuffle-based Feedback Learning for Semantic Segmentation of Pathology Images

arXiv:2604.15777v1 Announce Type: new 抽象:セグメンテーションは、病的な領域や異常な増殖を特定する計算病理学の重要なタスクであり、診断と治療に不可欠です。しかし、高品質なピクセルレベルの教師付きセグメンテーションデータを取得するには、経験豊富な病理学家が著しい作業負荷を要求し、深層学習の応用を制限しています。この課題に対抗するため、画像レベルの分類ラベルを条件...

Original: arXiv:2604.15777v1 Announce Type: new Abstract: Segmentation is a critical task in computational pathology, as it identifies areas affected by disease or abnormal growth and is essential for diagnosi...

arxiv_cs_cv 2026/4/20

PLAF: Pixel-Wise Language-Aligned Feature Extraction for Efficient 3D Scene Understanding

PLAF: Pixel-wise Language-Aligned Feature Extraction for Efficient 3D Scene Understanding

arXiv:2604.15770v1 Announce Type: new Abstract: 正確なオープンバocabular(語彙なし)3D シーン理解には、言語に整合性を持ち、画素レベルで空間的に正確であると同時に、3D 空間へ拡張可能であるという必須の条件を満たすセマンティック表現が必要です。しかし、既存の表現手法はこれら要件を同時に満たすことに困難を覚えていますし、画素単位のセマンティク...

Original: arXiv:2604.15770v1 Announce Type: new Abstract: Accurate open-vocabulary 3D scene understanding requires semantic representations that are both language-aligned and spatially precise at the pixel lev...

arxiv_cs_cv 2026/4/20

概念レベルの注意力による細粒度概念ボトルネックモデル

Concept-wise Attention for Fine-grained Concept Bottleneck Models

arXiv:2604.15748v1 発表 タイプ:新 要約:最近、大規模事前学習された視覚・言語モデル(すなわち CLIP)で学習された画像テキストアライメントを利用して、概念ボトルネックモデル(CBM)に驚くべき性能が達成されています。しかしながら、概念モデル化には重要な 2 つの制限が存在します。既存の手法は、事前学習バイアス、つまり粒度の不一致や構造的仮定への依存に苦しんでいます。さら...

Original: arXiv:2604.15748v1 Announce Type: new Abstract: Recently impressive performance has been achieved in Concept Bottleneck Models (CBM) by utilizing the image-text alignment learned by a large pre-train...

arxiv_cs_cv 2026/4/20

RefereeBench: Video MLLMs が複数の競技の審判官に耐えられるのだろうか

RefereeBench: Are Video MLLMs Ready to be Multi-Sport Referees

arXiv:2604.15736v1 Announce Type: new 要約:多模态大言語モデル (MLLMs) は汎用的な動画理解において秀でているものの、専門的な、ルールに根ざした意思決定をサポートする能力は、十分に探索されていない。この論文では、MLLMs を自動的にスポーツ審判官として評価するための初の大规模ベンチマークである RefereeBench を紹介する。RefereeBe...

Original: arXiv:2604.15736v1 Announce Type: new Abstract: While Multimodal Large Language Models (MLLMs) excel at generic video understanding, their ability to support specialized, rule-grounded decision-makin...

arxiv_cs_cv 2026/4/20

スケッチとテキストの調和:構造的輪郭と記述的特徴を融合した微細な画像検索の実現

Sketch and Text Synergy: Fusing Structural Contours and Descriptive Attributes for Fine-Grained Image Retrieval

arXiv:2604.15735v1 Announce Type: new 摘要:手書きのスケッチやテキスト記述を用いた微細な画像検索は、内在するモダリティのギャップという本質的な課題が存在するため、極めて重要な問題です。手書きスケッチは複雑な構造的輪郭を捉えることはできても、カラーやテクスチャを欠いており、一方テキストはそれを効果的に提供できますが、空間的な輪郭は欠きます。これらのモダリティの補...

Original: arXiv:2604.15735v1 Announce Type: new Abstract: Fine-grained image retrieval via hand-drawn sketches or textual descriptions remains a critical challenge due to inherent modality gaps. While hand-dra...

arxiv_cs_cv 2026/4/20

MambaBack: 全スライド画像解析における局所特徴量とグローバル文脈の架橋

MambaBack: Bridging Local Features and Global Contexts in Whole Slide Image Analysis

arXiv:2604.15729v1 発表タイプ: new 要旨: 全スライド画像(WSI)分析は計算病理学において決定的な役割を果たし、形態学的および構造的な手がかりを様々な倍率にわたって統合することで癌診断を可能にする。マルチインスタンス学習(MIL)は WSI 分析の標準的な枠組みです。最近、自然言語処理(NLP)から起源する効率性とグローバル文脈モデリング能力によって、Mamba は MI...

Original: arXiv:2604.15729v1 Announce Type: new Abstract: Whole Slide Image (WSI) analysis is pivotal in computational pathology, enabling cancer diagnosis by integrating morphological and architectural cues a...

arxiv_cs_cv 2026/4/20

手持眼底画像の非構造化劣化に対する無教師学習型拡散型自動エンコーダーによるアートをリステル

Diffusion Autoencoder for Unsupervised Artifact Restoration in Handheld Fundus Images

arXiv:2604.15723v1 発表タイプ:新規 要旨:手持式眼底撮像機器の登場により、眼科診断と疾患スクリーニングがよりアクセス可能、効率的、かつコスト効果の高いものとなりました。ただし、これらの装置から得られた画像には、フラッシュ反射、露光変動、および運動によるぼかしなどのアーティファクトが含まれており、これらは画像品質を低下させ、下流解析を妨げています。生成モデルは画像修復において有効...

Original: arXiv:2604.15723v1 Announce Type: new Abstract: The advent of handheld fundus imaging devices has made ophthalmologic diagnosis and disease screening more accessible, efficient, and cost-effective. H...

arxiv_cs_cv 2026/4/20

NeuroLip: 要約動作に基づく視覚说话者認識のためのクロスシーン・空間時間型学習フレームワーク

NeuroLip: An Event-driven Spatiotemporal Learning Framework for Cross-Scene Lip-Motion-based Visual Speaker Recognition

Visual speaker recognition based on lip motion offers a silent, hands-free, and behavior-driven biometric solution that remains effective even when acoustic cues are unavailable. Compared to tradition...

Original: arXiv:2604.15718v1 Announce Type: new Abstract: Visual speaker recognition based on lip motion offers a silent, hands-free, and behavior-driven biometric solution that remains effective even when aco...

arxiv_cs_cv 2026/4/20

SSMamba: 病理画像分類用の自己教師ありハイブリッド状態空間モデル

SSMamba: A Self-Supervised Hybrid State Space Model for Pathological Image Classification

arXiv:2604.15711v1 Announce Type: new 摘要:病理診断は画像解析に大きく依存しており、領域興趣点(ROI)が診断根拠の主要な基盤となっているのに対し、全スライド画像(WSI)レベルのタスクは主に統合されたパターンを捉える。これらの重要な形態的特徴を抽出するために、ビジュアルトランスフォーマー(ViT)および大規模自己教師あり学習(SSL)に基づく ROI レベル...

Original: arXiv:2604.15711v1 Announce Type: new Abstract: Pathological diagnosis is highly reliant on image analysis, where Regions of Interest (ROIs) serve as the primary basis for diagnostic evidence, while ...

arxiv_cs_cv 2026/4/20

APC:一般性と効率的な 3D ポイントクラウド認識に対する対抗攻撃

APC: Transferable and Efficient Adversarial Point Counterattack for Robust 3D Point Cloud Recognition

arXiv:2604.15708v1 発表 タイプ:新規 要旨:ディープニューラルネットワークの登場は 3D ポイントクラウド認識の画期的な進歩をもたらしたが、それらは依然として対抗攻撃に対して脆弱である。様々な防御手法が研究されてきたにもかかわらず、それらは一般性と効率性とのトレードオフに苦しんでいる。我々は、両方を同時に達成するための対抗ポイント反撃(APC)を提案する。APC は、各点に対し...

Original: arXiv:2604.15708v1 Announce Type: new Abstract: The advent of deep neural networks has led to remarkable progress in 3D point cloud recognition, but they remain vulnerable to adversarial attacks. Alt...

arxiv_cs_cv 2026/4/20

LP$^{2}$DH: 時空間保持型ピクセル差分ハッシングを用いたダイナミックテクチャ認識の枠組み

LP$^{2}$DH: A Locality-Preserving Pixel-Difference Hashing Framework for Dynamic Texture Recognition

arXiv:2604.15707v1 Announce Type: new 要約:時空間ローカルバイナリーパターン (STLBP) は広く利用されているダイナミックテクチャ記述子であるが、極めて高い次元数を持つという課題を抱えている。これを克服するため、STLBP 特徴量は通常、3 つの直交平面に抽出されており、これにより平面間の相関関係が犠牲となっている。本稿では、全時空間近傍におけるピクセル...

Original: arXiv:2604.15707v1 Announce Type: new Abstract: Spatiotemporal Local Binary Pattern (STLBP) is a widely used dynamic texture descriptor, but it suffers from extremely high dimensionality. To tackle t...

arxiv_cs_cv 2026/4/20

P3T: 一般化性能向上改善されたプロトタイプ式ポイントレベル・プロンプトチューニングによる 3D バージョン・ランゲージモデル

P3T: Prototypical Point-level Prompt Tuning with Enhanced Generalization for 3D Vision-Language Models

arXiv:2604.15703v1 Announce Type: new アブストラクト: 3D パイントクラウドドメインにおける前訓練モデルの広範な実世界への適用における学習済みモデルの台頭に伴い、それらをダウンストリーミングタスクに適応させることが愈发重要となっています。従来のフル・ファインタューニング手法は計算コストとストレージコストが高いという問題を抱えています。プロンプトチューニング...

Original: arXiv:2604.15703v1 Announce Type: new Abstract: With the rise of pre-trained models in the 3D point cloud domain for a wide range of real-world applications, adapting them to downstream tasks has bec...

arxiv_cs_cv 2026/4/20

Noisier2Inverse を用いた写真音響再構成における自己教師あり角方向反ぼかし

Self-Supervised Angular Deblurring in Photoacoustic Reconstruction via Noisier2Inverse

arXiv:2604.15681v1 発表型:new 要旨:写真音響断層法(PAT)は、光学コントラストと超音波分解能の両方の補完的な強みを兼ね備えた新興イメージング模态である。中心となる課題は、測定された音響信号を用いた初期圧力分布の復元である。理想的な点状または線状検出器の適用下では、フーリエ法、フィルタされた逆投影法、時間逆転法など、いくつかの効率的で高速な再構成アルゴリズムが存在する。しか...

Original: arXiv:2604.15681v1 Announce Type: new Abstract: Photoacoustic tomography (PAT) is an emerging imaging modality that combines the complementary strengths of optical contrast and ultrasonic resolution....

arxiv_cs_cv 2026/4/20

HyCal: ヘテロゲン・ドメインにおける少数ショットクラス・インクリメンタル学習のためのトレーニングフリープロタイプ補正法

HyCal: A Training-Free Prototype Calibration Method for Cross-Discipline Few-Shot Class-Incremental Learning

arXiv:2604.15678v1 発表タイプ:新規 要約:CLIP といった事前学習されたビジョン・ラングauge モデル (VLMs) は、継続的学習において希望を示していますが、既存の少数ショットクラス・インクリメンタル学習 (FSCIL) の手法は同質的なドメインと平衡的なデータ分布を前提としており、異質な分野から生じ、サンプル可用性の不均衡と可視的な複雑度のバリエーションが存在する実世...

Original: arXiv:2604.15678v1 Announce Type: new Abstract: Pretrained Vision-Language Models (VLMs) like CLIP show promise in continual learning, but existing Few-Shot Class-Incremental Learning (FSCIL) methods...

arxiv_cs_cv 2026/4/20

PixDLM: UAV 推論分割のための双路マルチモーダル言語モデル

PixDLM: A Dual-Path Multimodal Language Model for UAV Reasoning Segmentation

arXiv:2604.15670v1 発表 タイプ:新規 要旨:推論セグメンテーションは最近、地面レベルのシーンからリモートセンシング画像へと拡張されており、非直視点、超解像度、極端なスケール変異を含む UAV データは独自の課題を呈しています。これらの問題を解決するため、当方は UAV 推論セグメンテーションタスクを形式化し、その半義的要件を 3 つの次元、すなわち空間的、属性、シーンレベルの推...

Original: arXiv:2604.15670v1 Announce Type: new Abstract: Reasoning segmentation has recently expanded from ground-level scenes to remote-sensing imagery, yet UAV data poses distinct challenges, including obli...

arxiv_cs_cv 2026/4/20

リソース制約された展開のための単眼 3D 生体力学パイプラインの CPU 最適化

CPU Optimization of a Monocular 3D Biomechanics Pipeline for Low-Resource Deployment

arXiv:2604.15665v1 Announce Type: new 摘要:単眼ビデオからマーカーなしの 3D 動き解析は、臨床およびスポーツ環境におけるアクセス可能な生体力学評価を可能にします。しかし、多くの研究用パイプラインは GPU アクセラレーションに依存しており、コンシューマーグレードのハードウェアやリソース制約された環境での展開を制限しています。本稿では、MonocularBio...

Original: arXiv:2604.15665v1 Announce Type: new Abstract: Markerless 3D movement analysis from monocular video enables accessible biomechanical assessment in clinical and sports settings. However, most researc...

arxiv_cs_cv 2026/4/20

ゼロから詳細まで:UHD 画像修復のための新しいベンチマークを含む進階的スペクトル分割パラジグマ

From Zero to Detail: A Progressive Spectral Decoupling Paradigm for UHD Image Restoration with New Benchmark

arXiv:2604.15654v1 発表タイプ:新しい 概要:超解像度(UHD)画像の修復は、画像内に存在する空間解像度の高さ、多様なコンテンツ、および細かい構造という独自の課題を抱えています。これらの問題に対処するために、修復プロセスに対する進階的スペクトル分解を導入し、ゼロ周波数**Enhancement(補強)**、低周波数**Restoration(回復)**、高周波数**Refinem...

Original: arXiv:2604.15654v1 Announce Type: new Abstract: Ultra-high-definition (UHD) image restoration poses unique challenges due to the high spatial resolution, diverse content, and fine-grained structures ...

arxiv_cs_cv 2026/4/20

リアルなオープンバークアブリモートセンシング分割への道:ベンチマークとベースライン

Towards Realistic Open-Vocabulary Remote Sensing Segmentation: Benchmark and Baseline

arXiv:2604.15652v1 Announce Type: new 要旨:オープンバークアブリモートセンシングイメージ分割(OVRSIS)は、断片的なデータセット、トレーニングの多様性の不足、実地的な地理空間応用ニーズを反映しない評価ベンチマークの欠如などにより、まだ十分に探索されていない状態です。 私たちの以前の作品「OVRSISBenchV1」は、初期のクロスデータセット評価プロトコ...

Original: arXiv:2604.15652v1 Announce Type: new Abstract: Open-vocabulary remote sensing image segmentation (OVRSIS) remains underexplored due to fragmented datasets, limited training diversity, and the lack o...

arxiv_cs_cv 2026/4/20

SPLIT: 非線形断層画像逆問題における自己教師あり分割学習

SPLIT: Self-supervised Partitioning for Learned Inversion in Nonlinear Tomography

arXiv:2604.15651v1 Announce Type: new 概要:機械学習は断層再構築において顕著な性能を達成しましたが、監督型トレーニングにはしばしば入手不可能なペアリングされた測定値と真の画像が求められます。これは、ノイズ除去と最近では線形逆問題に主に焦点を当てた自己教師ありアプローチの動機となりました。本研究では、非線形逆問題に対処し、SPLIT(Nonlinear Tomo...

Original: arXiv:2604.15651v1 Announce Type: new Abstract: Machine learning has achieved impressive performance in tomographic reconstruction, but supervised training requires paired measurements and ground-tru...