4037 articles
Limited Labels から Open Domains へ:ドローンビュー地位置化のための効率的な学習手法
From Limited Labels to Open Domains:An Efficient Learning Method for Drone-view Geo-Localization
arXiv:2503.07520v5 発表タイプ:置換 要約: 従来の監督学習ベースのドローンビュー地位置化(DVGL)手法は、ペアリングされた学習データに大きく依存しており、未paired データからのクロスビュー相関の学習に困難を伴います。さらに、新しいドメインで展開する場合、これらの手法では新しいペアリングデータを取得してモデル適応のために再学習を必要とし、計算オーバーヘッドが大幅に増加しま...
Original: arXiv:2503.07520v5 Announce Type: replace Abstract: Traditional supervised drone-view geo-localization (DVGL) methods heavily depend on paired training data and encounter difficulties in learning cro...
Scalable Unseen Objects 6-DoF Absolute Pose Estimation with Robotic Integration
arXiv:2503.05578v4 Announce Type: replace 要約:ポーズ推定を導向とした見えない物体の 6 自由度(6-DoF)ロボットマニピュレーションは、ロボット工学における重要な課題です。しかし、現在のポーズ推定手法の見えない物体に対する拡張性は、CAD モデルや見えない物体の高密度参照視点が一般的に取得が困難であるという根本的な課題に制約されています。本論文では、...
Original: arXiv:2503.05578v4 Announce Type: replace Abstract: Pose estimation-guided unseen object 6-DoF robotic manipulation is a key task in robotics. However, the scalability of current pose estimation meth...
文化が交錯する時:多文化テキスト生成画像生成(Multicultural Text-to-Image Generation)
When Cultures Meet: Multicultural Text-to-Image Generation
arXiv:2502.15972v2 Announce Type: replace Abstract: テキストから画像生成モデルは、文化的に均質な環境では強力な性能を発揮していますが、人々やランドマークが異なる文化に起源を持つ多文化シーンにおいてそれを生成する能力は、ほぼ未探索の領域に留まっています。 我々は、多文化テキスト生成画像生成(Multicultural Text-to-Image...
Original: arXiv:2502.15972v2 Announce Type: replace Abstract: Text-to-image generation models have achieved strong performance in culturally homogeneous settings, yet their ability to generate multicultural sc...
比較研究:合成開口レーダー画像における氷河の崩壊前端の境界線抽出におけるディープラーニング
Comparison Study: Glacier Calving Front Delineation in Synthetic Aperture Radar Images With Deep Learning
arXiv:2501.05281v2 Announce Type: replace 摘要: 氷河の崩壊前端の継続的な監視は、海面上昇の予測に不可欠です。本研究では、合成開口レーダー画像における前端の境界線抽出のためにディープラーニングシステムを検証しました。ディープラーニングシステムは誤差が最大 221m に達する一方、人間による注釈者の偏離は 38m にとどまり、これによりさらなる研究の必要性が...
Original: arXiv:2501.05281v2 Announce Type: replace Abstract: Continuous monitoring of glacier calving fronts is essential for sea level rise projections. This study benchmarks Deep Learning systems for front ...
EventCrab: フレームとポイントのシナジーを活用したエベントベースなアクション認識とそれを超へる
EventCrab: Harnessing Frame and Point Synergy for Event-based Action Recognition and Beyond
arXiv:2411.18328v2 Announce Type: replace 要旨:エベントベースなアクション認識(EAR)は、従来のアクション認識と比較して、高時間分解能キャプチャとプライバシー保全という利点を有しています。現在、最先端の EAR ソリューションは一般的に 2 つの制度に従っています:非構造化されたエベントストリームを密な構造化されたエベントフレームに投影し、強力なフレー...
Original: arXiv:2411.18328v2 Announce Type: replace Abstract: Event-based Action Recognition (EAR) possesses the advantages of high-temporal resolution capturing and privacy preservation compared with traditio...
DENALI: 低コスト LiDAR を利用した非直接視線空間推論を可能にするデータセット
DENALI: A Dataset Enabling Non-Line-of-Sight Spatial Reasoning with Low-Cost LiDARs
arXiv:2604.16201v1 Announce Type: cross 要旨:モバイル機器およびロボットに搭載された消費向け LiDAR は、通常、各ピクセルについて単一の深度値のみを出力します。しかし、その内部では、直接反射と複数回反射を含む完全な時間解決済みヒストグラムが記録されており、これらの複数回反射は豊富な非直接視線(NLOS)クイークをエンコードし、シーンの隠れ物体の推知を可能...
Original: arXiv:2604.16201v1 Announce Type: cross Abstract: Consumer LiDARs in mobile devices and robots typically output a single depth value per pixel. Yet internally, they record full time-resolved histogra...
MARCH: 人工放射線科医の臨床階層構造を活用した CT レポート生成システム
MARCH: Multi-Agent Radiology Clinical Hierarchy for CT Report Generation
arXiv:2604.16175v1 Announce Type: cross 要約:自動 3D 放射線診断レポート生成システムには、臨床的な「幻覚(事実と異なる情報を含む)」や、人間の診療における反復検証プロセスの欠如などの課題が存在します。最近の視覚言語モデル(VLMs)は該分野を進歩させましたが、それらは通常、臨床ワークフローに特徴的な協調的な監督を持たない単一の「黒箱」システムとして動作し...
Original: arXiv:2604.16175v1 Announce Type: cross Abstract: Automated 3D radiology report generation often suffers from clinical hallucinations and a lack of the iterative verification found in human practice....
デュアルモーダル肺癌 AI:臨床リスクを統合した解釈可能な放射線画像と組織顕微鏡学
Dual-Modal Lung Cancer AI: Interpretable Radiology and Microscopy with Clinical Risk Integration
arXiv:2604.16104v1 Announce Type: cross 要旨:肺癌は世界中の癌関連死亡率の主要因の其中之一です。従来の計算断層法(CT)画像は検出と staging に不可欠ですが、良性から悪性病変を区別する点および解釈可能な診断知見を提供する点において限界があります。この課題に対処するため、本研究では CT 放射線画像とヘマトキシリンとエオシン(H&E)組織顕微鏡学を統合...
Original: arXiv:2604.16104v1 Announce Type: cross Abstract: Lung cancer remains one of the leading causes of cancer-related mortality worldwide. Conventional computed tomography (CT) imaging, while essential f...
AEGIS: 知能維持型ビジョン・言語・アクション微調整のためのアンカー制約勾配分離
AEGIS: Anchor-Enforced Gradient Isolation for Knowledge-Preserving Vision-Language-Action Fine-Tuning
arXiv:2604.16067v1 発表タイプ:クロス 概要:フローマッチングによるアクションエキスパートから高い勾配規模の連続勾配を注入することにより、クロースエン트로ピー(CE)のみで訓練されたバックボーンに視覚言語モデル(VLM)をロボット制御に適用する必要があります。このクロスモーダル勾配の非対称性——すなわち、低ランク MSE 回帰勾配と CE 前訓練で形作られた高次数義数表現と之間的...
Original: arXiv:2604.16067v1 Announce Type: cross Abstract: Adapting pre-trained vision-language models (VLMs) for robotic control requires injecting high-magnitude continuous gradients from a flow-matching ac...
AstroVLM: 天体画像品質診断のための専門家マルチエージェント協調推理
AstroVLM: Expert Multi-agent Collaborative Reasoning for Astronomical Imaging Quality Diagnosis
arXiv:2604.16024v1 発表タイプ: cross 摘要:視言語モデル(VLM)は複数の特定ドメインに応用され、強力な問題解決能力を証明してきた。しかし、学際的な知識と複数のサブタスクを要する非常に複雑な問題である天体画像処理については、十分研究がなされていない。天体画像処理プロセスの複雑さのため、NASA を始めとした世界有数の天体観測機関やExpert Entusiasts は、...
Original: arXiv:2604.16024v1 Announce Type: cross Abstract: Vision Language Models (VLMs) have been applied to several specific domains and have shown strong problem-solving capabilities. However, astronomical...
脆弱データ主体から被害を生むデータ実践へ:プラットフォーム化された人生の AI 分析における保護の矛盾への導航
From Vulnerable Data Subjects to Vulnerabilizing Data Practices: Navigating the Protection Paradox in AI-Based Analyses of Platformized Lives
arXiv:2604.15990v1 発表タイプ: クロス 要旨:本研究論文は、データ主体の脆弱性を静的な、本質化した特徴として理解する概念の転換を辿り、それがデータ実践を通じて能動的に実行されている方法を検証します。反復的倫理枠組みが欠如や反データに焦点を当てるのに対し、私たちは、ほぼ耗尽しないデータポイントの量に already 存在するプラットフォーム化された人生に内在する豊富さの条件に対し...
Original: arXiv:2604.15990v1 Announce Type: cross Abstract: This paper traces a conceptual shift from understanding vulnerability as a static, essentialized property of data subjects to examining how it is act...
TwoHamsters: テキストから画像生成モデルにおけるマルチコンセプト構成的な不安全性のベンチマーク
TwoHamsters: Benchmarking Multi-Concept Compositional Unsafety in Text-to-Image Models
arXiv:2604.15967v1 Announce Type: cross 要旨:テキストから画像生成(T2I)モデルの驚異的な合成能力にもかかわらず、コンテンツ違反からの保護は依然として課題です。既存の安全アライメントは、主に明示的な悪意ある概念に焦点を当てる傾向があり、構成的な意味における微妙ではあるが決定的なリスクを見落としている場合が多々あります。この見落としに対処するため、私たちは個...
Original: arXiv:2604.15967v1 Announce Type: cross Abstract: Despite the remarkable synthesis capabilities of text-to-image (T2I) models, safeguarding them against content violations remains a persistent challe...
Sub-Saharan Africa データセットにおける脳腫瘍セグメンテーションにおける nnU-Net と MedNeXt のトポロジー駆動型統合による高精度化
Topology-Driven Fusion of nnU-Net and MedNeXt for Accurate Brain Tumor Segmentation on Sub-Saharan Africa Dataset
arXiv:2604.15964v1 Announce Type: cross Abstract: Low and Middle-Income (LMIC) 国における正確な自動脳腫瘍セグメンテーションは、定義された国家画像処理プロトコルの欠如、多様な画像データ、低野 MRI (MRI) スキャナーの広範な使用、および限られた医療資源により課題となっています。Brain Tumor Segment...
Original: arXiv:2604.15964v1 Announce Type: cross Abstract: Accurate automatic brain tumor segmentation in Low and Middle-Income (LMIC) countries is challenging due to the lack of defined national imaging prot...
Hierarchical Codec Diffusion for Video-to-Speech Generation
arXiv:2604.15923v1 Announce Type: cross Abstract: Video-to-Speech (VTS) generation aims to synthesize speech from a silent video without auditory signals. However, existing VTS methods disregard the h...
Original: arXiv:2604.15923v1 Announce Type: cross Abstract: Video-to-Speech (VTS) generation aims to synthesize speech from a silent video without auditory signals. However, existing VTS methods disregard the ...
TTL: プルーントビジョン・ラングゲージモデルを用いた OOD 検出のためのテスト時テキスト学習
TTL: Test-time Textual Learning for OOD Detection with Pretrained Vision-Language Models
arXiv:2604.15756v1 告知タイプ:横断 概要:CLIP を含むビジョン・ラングゲージモデル (VLM) は、視覚的表現とテキスト的表現の整合化を通じて強力な Out-of-distribution (OOD) 検出能力を示します。最近、CLIP ベースのテスト時適応手法では、外部 OOD ラベルを統合することで検出性能がさらに向上しました。しかし、そのようなラベルは有限で固定されて...
Original: arXiv:2604.15756v1 Announce Type: cross Abstract: Vision-language models (VLMs) such as CLIP exhibit strong Out-of-distribution (OOD) detection capabilities by aligning visual and textual representat...
Successor 表現を用いた階層的なアクティブ・インフェレーション
Hierarchical Active Inference using Successor Representations
arXiv:2604.15679v1 Announce Type: cross 要旨:脳に由来するモデルであり、自由エネルギー原理(FEP)に基づいて行動を推測するアクティブ・インフェレーションは、脳の知覚、行動、学習の統一する枠組みとして提案されています。アクティブ・インフェレーションは、導航や計画など生え重要なタスクをモデル化するために以前から利用されてきましたが、現実世界の複雑で大規模な問...
Original: arXiv:2604.15679v1 Announce Type: cross Abstract: Active inference, a neurally-inspired model for inferring actions based on the free energy principle (FEP), has been proposed as a unifying framework...
HyperGVL:ハイパーグラフの理解と論理における大規模ビジョン言語モデルのベンチマーク化と改善
HyperGVL: Benchmarking and Improving Large Vision-Language Models in Hypergraph Understanding and Reasoning
arXiv:2604.15648v1 Announce Type: cross 要約: 大規模ビジョン言語モデル(LVLM)はその能力の拡張を導くために常に新しい分野を必要とする一方で、ハイパーグラフにおける能力はまだ未探索の状態にある。現実の世界では、ライフサイエンスやソーシャルコミュニティなどの分野においてハイパーグラフは大きな実用的応用を持つ。最近の LVLM の進歩が複雑なトポロジーの理解...
Original: arXiv:2604.15648v1 Announce Type: cross Abstract: Large Vision-Language Models (LVLMs) consistently require new arenas to guide their expanding boundaries, yet their capabilities with hypergraphs rem...
GaussianFlow SLAM: モノキュラー高スプラット SLAM を GaussianFlow で誘導
GaussianFlow SLAM: Monocular Gaussian Splatting SLAM Guided by GaussianFlow
arXiv:2604.15612v1 発表タイプ: cross 要約:最近、高スプラットは SLAM システムのための魅力的なマップ表現として注目されており、密集型かつ写真のような質感のシーンのモデル化を可能にしています。しかし、モノキュラー入力の確実性の高い幾何学的手がかりの欠如により、そのモノキュラー SLAM への応用は依然として困難です。幾何学的监督(supervision)が存在しない場...
Original: arXiv:2604.15612v1 Announce Type: cross Abstract: Gaussian splatting has recently gained traction as a compelling map representation for SLAM systems, enabling dense and photo-realistic scene modelin...
暗闇における適応:ブラックボックスモデルに対する効率的かつ安定したテストタイム適応
Adapting in the Dark: Efficient and Stable Test-Time Adaptation for Black-Box Models
arXiv:2604.15609v1 Announce Type: cross Summary: ブラックボックスモデル(API 経由でのみアクセス可能なモデル)を対象としたテストタイム適応(TTA)は、まだ十分に探求されていない課題である。既存のアプローチは、事後処理による出力の精細化など、適応能力が限られており、ゼロ次最適化(ZOO)が入力空間での適応を可能にするものの、無教師学習の設定にお...
Original: arXiv:2604.15609v1 Announce Type: cross Abstract: Test-Time Adaptation (TTA) for black-box models accessible only via APIs remains a largely unexplored challenge. Existing approaches such as post-hoc...
CTSCAN: 胸部 CT セグメンテーションにおける評価の漏洩と再現可能な患者間データ共有しないベンチマーク
CTSCAN: Evaluation Leakage in Chest CT Segmentation and a Reproducible Patient-Disjoint Benchmark
arXiv:2604.15561v1 Announce Type: cross 抽象:訓練データとテストデータのパーティションが同じ研究のスライスと混合されている場合、報告される胸部 CT セグメンテーションのパフォーマンスが過大に評価される可能性があります。CTSCAN とは、患者間データ共有しない(patient-disjoint)評価において持続する結果を測定するために設計された、再現性の高...
Original: arXiv:2604.15561v1 Announce Type: cross Abstract: Reported chest CT segmentation performance can be strongly inflated when train and test partitions mix slices from the same study. We present CTSCAN,...