4037 articles

arxiv_cs_cv 2026/2/10

$\chi_{0}$:分布的不整合を鎮めるによるリソース感知的頑健な操作制御

$\chi_{0}$: Resource-Aware Robust Manipulation via Taming Distributional Inconsistencies

arXiv:2602.09021v1 発表種別:クロス\nアブストラクト:高信頼性の長期遠隔ロボット操作は、複雑な実世界のダイナミクスを理解するために大規模データと計算リソースに依存して以来でした。しかし、我々は実世界の頑健性の主要なボトルネックが単なるリソース規模ではなく、人間のデモンストレーション分布、政策によって学習された誘導バイアス、およびテスト時の実行分布間の分布のシフトである(これを「...

Original: arXiv:2602.09021v1 Announce Type: cross Abstract: High-reliability long-horizon robotic manipulation has traditionally relied on large-scale data and compute to understand complex real-world dynamics...

arxiv_cs_cv 2026/2/10

文書 VQA チャレンジ 2021 の優勝チーム:事前トレーニング済みのシーケンス間モデルを用いた視覚と言語の表現学習

Winner Team Mia at TextVQA Challenge 2021: Vision-and-Language Representation Learning with Pre-trained Sequence-to-Sequence Model

文書 VQA は、画像内に含まれるテキストを読み解き、論理的な推論を行うことでそのテキストに関する質問を回答するモデルを必要としています。具体的には、モデルは画像内に存在する新たなモーダルであるテキストを統合し、それを基に文書 VQA の質問に答える推論を行う必要があります。このチャレンジでは、文書 VQA のタスクに生成モデル T5 を使用しています。HuggingFace リポジトリから事前ト...

Original: arXiv:2106.15332v2 Announce Type: replace Abstract: TextVQA requires models to read and reason about text in images to answer questions about them. Specifically, models need to incorporate a new moda...

arxiv_cs_cv 2026/2/10

DropTriple Loss を用いた動作とテキストのクロスモーダル検索

Cross-Modal Retrieval for Motion and Text via DropTriple Loss

arXiv:2305.04195v4 Announce Type: replace 要旨: イメージ - テキストおよび動画 - テキストのクロスモーダル検索は、コンピュータビジョンおよび自然言語処理における顕著な研究領域である。しかしながら、その広範な適用性を踏まえても、人間動作とテキストとの間のクロスモーダル検索に十分な注目を集められていなかった。このギャップに対処するために、本稿では効率的か...

Original: arXiv:2305.04195v4 Announce Type: replace Abstract: Cross-modal retrieval of image-text and video-text is a prominent research area in computer vision and natural language processing. However, there ...

arxiv_cs_cv 2026/2/10

Translucency-Reflection Modelingを用いた高速画像ベースの神経レライトリング

Fast Image-based Neural Relighting with Translucency-Reflection Modeling

arXiv:2306.09322v2 発表タイプ:置換 概要: 画像ベース照明(IBL)は、高ダイナミックレンジ画像または環境マップを使用してオブジェクトをレンダリングする広く採用されている技術です。しかし、オブジェクト表面の照度を集積させるのは計算的にコストがかかり、特に不透明でない半透明材料が体積レンダリング技術を必要とする場合はその問題が顕著です。本稿では、体積的暗号モデル(例:神経放射場)...

Original: arXiv:2306.09322v2 Announce Type: replace Abstract: Image-based lighting (IBL) is a widely used technique that renders objects using a high dynamic range image or environment map. However, aggregatin...

arxiv_cs_cv 2026/2/10

LBL: 単一分類のための対数バリア損失関数

LBL: Logarithmic Barrier Loss Function for One-class Classification

arXiv:2307.10753v3 Announce Type: replace 要約: 単一分類(OCC)は、目標クラスのみを用いて分類器を訓練する目的を持ち、実世界の適用性が強いことから大きな注目を集めています。OCC 分野では多くの進展がなされていますが、深度学習に有効な OCC 損失関数は依然として不足しています。本論文では、OCC の目的関数を滑らかに近似する手法により、初めて辺のサン...

Original: arXiv:2307.10753v3 Announce Type: replace Abstract: One-class classification (OCC) aims to train a classifier only with the target class data and attracts great attention for its strong applicability...

arxiv_cs_cv 2026/2/10

DeltaSpace: フレキシブルなテキスト誘導型画像編集のためのセマンティック一致した特徴空間

DeltaSpace: A Semantic-aligned Feature Space for Flexible Text-guided Image Editing

arXiv:2310.08785v3 発表タイプ:置換 摘要:テキスト誘導型画像編集において、トレーニングと推論の柔軟性を考慮すると、重大な課題が存在する。多くの文献では、テキスト条件付生成モデルからゼロで訓練するために、大量の注釈付き画像-テキスト対を収集しており、これは高コストで非効率的である。それ以降、データ収集を避けるために、事前学習されたビジョン言語モデルを活用したアプローチが提案されて...

Original: arXiv:2310.08785v3 Announce Type: replace Abstract: Text-guided image editing faces significant challenges when considering training and inference flexibility. Much literature collects large amounts ...

arxiv_cs_cv 2026/2/10

マルチステージフレームワークとカスタマイズされたマルチデコーダーアーキテクチャによる拡散モデルの効率向上

Improving Efficiency of Diffusion Models via Multi-Stage Framework and Tailored Multi-Decoder Architectures

arXiv:2312.09181v4 Announce Type: replace Abstract: 拡散モデルは強力な深層生成ツールとして台頭し、多様なアプリケーションで卓越した性能を発揮しています。これらのモデルは、トレーニングサンプルにノイズを導入し、その後モデルを適用してランダムノイズを新しいサンプル(例えば画像)に変換するという 2 ステップのプロセスで動作します。しかし、その顕著な生...

Original: arXiv:2312.09181v4 Announce Type: replace Abstract: Diffusion models, emerging as powerful deep generative tools, excel in various applications. They operate through a two-steps process: introducing ...

arxiv_cs_cv 2026/2/10

水生生態系におけるリアルタイム環境モニタリングのための認知エッジデバイス(CED)

Cognitive Edge Device (CED) for Real-Time Environmental Monitoring in Aquatic Ecosystems

arXiv:2401.06157v3 発表タイプ:置換 要約:侵略的なシグナルカニは生態系に悪影響を及ぼします。それらは、イギリスにのみ在来種として生存する白足カニに致死する菌類型のカニ疫病(Aphanomyces astaci)を広げます。侵略的なシグナルカニは広範囲に穴を開け、生息地の破壊、河岸の侵食、水質の悪化を引き起こすとともに、資源を巡る競争を通じて在来種を駆逐し、在来種の減少をもたらし...

Original: arXiv:2401.06157v3 Announce Type: replace Abstract: Invasive signal crayfish have a detrimental impact on ecosystems. They spread the fungal-type crayfish plague disease (Aphanomyces astaci) that is ...

arxiv_cs_cv 2026/2/10

産業生産における手作業の自動制御用スタンドの効率指標の決定

Determination of efficiency indicators of the stand for intelligent control of manual operations in industrial production

arXiv:2401.10777v2 Announce Type: replace Abstract: 手作業の柔軟性と実装コストの低さゆえに、産業生産において依然として不可欠である。しかし、特に高い変動性と人間によるエラーの条件下で、その品質を保証し実態をリアルタイムで監視することは大きな課題となっている。本論文では、手作業の組み立てを追跡するための AI ベースの制御システムを提案し、その総...

Original: arXiv:2401.10777v2 Announce Type: replace Abstract: Manual operations remain essential in industrial production because of their flexibility and low implementation cost. However, ensuring their quali...

arxiv_cs_cv 2026/2/10

TSJNet: ターゲットとセマンティック認識を連動させたマルチモーダル画像融合ネットワーク

TSJNet: A Multi-modality Target and Semantic Awareness Joint-driven Image Fusion Network

arXiv:2402.01212v2 発表形式:置き換え 要旨:本稿は、単独モード画像におけるセマンティック分割や対象検出タスクにおける情報不完全性の問題を解決することを目的としています。既存のマルチモーダル融合手法は、マルチスケールセマンティック構造と顕著なターゲット領域の識別モデル化能力に限られ、モード間でのタスク関連セマンティック詳細とターゲット情報の効果的な融合を制限しています。これらの...

Original: arXiv:2402.01212v2 Announce Type: replace Abstract: This study aims to address the problem of incomplete information in unimodal images for semantic segmentation and object detection tasks. Existing ...

arxiv_cs_cv 2026/2/10

移動する UAV における View-Centric Multi-Object Tracking への Homographic Matching の適用

View-Centric Multi-Object Tracking with Homographic Matching in Moving UAV

arXiv:2403.10830v3 Announce Type: replace 本論文では、不規則な飛行経路(ホバリング、左/右折、上/下移動)を持つ移動する無人機(UAV)シナリオにおける複数目標追跡(MOT)の課題にアプローチします。従来の固定カメラ MOT に比べて、これらは大幅に複雑です。具体的には、シーン背景の変化は、伝統的なフレーム間物体 IoU 関連付け手法を無効にし、かつ物体へ...

Original: arXiv:2403.10830v3 Announce Type: replace Abstract: In this paper, we address the challenge of Multi-Object Tracking (MOT) in moving Unmanned Aerial Vehicle (UAV) scenarios, where irregular flight tr...

arxiv_cs_cv 2026/2/10

一般化基礎モデルの提案:3D 計算断層造影症画像用マルチモーダルデータセットによるアプローチ

Generalist Foundation Models from a Multimodal Dataset for 3D Computed Tomography

arXiv:2403.17834v5 発表タイプ:置き換え 概要:医療画像診断 AI、特に 3 次元画像診断分野の進歩は、包括的なデータセットの不足により制限されている。本研究では、3 次元医療画像に対応するテキスト報告をペアリングした公開データセット「CT-RATE」を導入する。CT-RATE は、21,304 人の患者から得た非造影 3 次元胸部 CT スキャン画像 25,692 件を含み、...

Original: arXiv:2403.17834v5 Announce Type: replace Abstract: Advancements in medical imaging AI, particularly in 3D imaging, have been limited due to the scarcity of comprehensive datasets. We introduce CT-RA...

arxiv_cs_cv 2026/2/10

低剂量 CT データセットに跨る肺節結節検出と悪性の判定における再現性の高いベンチマーク化

Reproducible Benchmarking for Lung Nodule Detection and Malignancy Classification Across Multiple Low-Dose CT Datasets

arXiv:2405.04605v5 発表タイプ:置換 抽象文: 低剂量 CT による肺がんスクリーニング向けの人工知能(AI)モデルの評価は、異質的なデータセット、記述基準、および評価プロトコルの存在により制限されており、臨床的設定間でパフォーマンスの比較や転換が困難です。当々は肺節結節検出および節結節レベルのがん分類のために、公開かつ再現性の高いマルチデータセットベンチマークを確立し、データセ...

Original: arXiv:2405.04605v5 Announce Type: replace Abstract: Evaluation of artificial intelligence (AI) models for low-dose CT lung cancer screening is limited by heterogeneous datasets, annotation standards,...

arxiv_cs_cv 2026/2/10

曲率感知最適化に基づく頑健な双曲的学習

Robust Hyperbolic Learning with Curvature-Aware Optimization

arXiv:2405.13979v4 発表タイプ:置換 要約: 双曲的ディープラーニングは、代替埋め込み空間によってもたらされる固有の性質により、コンピュータビジョン分野で成長する研究分野となっています。陰曲率と指数関数的に増大する距離計測は、データポイント間の階層的関係を捉えるための自然な枠組みを提供し、それらの埋め込み間の更なる分離を可能にします。しかし、現在の双曲的学習アプローチは、依然とし...

Original: arXiv:2405.13979v4 Announce Type: replace Abstract: Hyperbolic deep learning has become a growing research direction in computer vision due to the unique properties afforded by the alternate embeddin...

arxiv_cs_cv 2026/2/10

EAGLE: LLM による視覚指令調整を通じて幾何学的推論能力向上

EAGLE: Elevating Geometric Reasoning through LLM-empowered Visual Instruction Tuning

arXiv:2408.11397v2 Announce Type: replace 概要:マルチモーダル大規模言語モデル (MLLM) は一般的なタスクにおいて大きく進歩しましたが、視覚認識の習熟と複雑な論理能力の相乗的な統合を必要とする幾何学的推論という課題においては依然として困難に直面しています。既存の MLLM は問題解決能力を向上させるために LLM のバックボーンを最適化ことに重点を置く...

Original: arXiv:2408.11397v2 Announce Type: replace Abstract: Multi-modal Large Language Models (MLLMs) have advanced greatly in general tasks. However, they still face challenges in geometric reasoning, a tas...

arxiv_cs_cv 2026/2/10

アフリカの都市および農촌地区の高分解能地図を作成:深層学習と衛星画像を用いた手法

A High Resolution Urban and Rural Settlement Map of Africa Using Deep Learning and Satellite Imagery

arXiv:2411.02935v2 発表タイプ:置換 要旨:都市および農圏地区の正確かつ一貫したマッピングは、持続可能な開発、空間計画、および政策設計にとって不可欠である。特に、人間活動と自然資源の複雑な相互作用をシミュレートする際に重要である。現在存在する全球的な都市・農圏データセット(GHSL-SMOD、GHS 都市化度、GRUMP)は、空間分解能が粗く、方法論的に一貫性に欠け、アフリカなど...

Original: arXiv:2411.02935v2 Announce Type: replace Abstract: Accurate and consistent mapping of urban and rural areas is crucial for sustainable development, spatial planning, and policy design. It is particu...

arxiv_cs_cv 2026/2/10

ノイズ付き集計埋め込みによる拡散モデルの微分プライバシー適応

Differentially Private Adaptation of Diffusion Models via Noisy Aggregated Embeddings

arXiv:2411.14639v4 発表タイプ:置換 要約:大規模拡散モデルを個人化することは、特に小さな機密データセットに適応させる場合、深刻なプライバシーリスクを伴う。一般的なアプローチは、微分プライバシー確率勾配降下 (DP-SGD) を使用してモデルを微調整することであるが、プライバシー確保のために必要な高いノイズのため、特に小データ領域では有用性(ユーティリティ)が著しく低下してしまう...

Original: arXiv:2411.14639v4 Announce Type: replace Abstract: Personalizing large-scale diffusion models poses serious privacy risks, especially when adapting to small, sensitive datasets. A common approach is...

arxiv_cs_cv 2026/2/10

Spectral Constraintsを備えた Long-Skip-Connections を用いた安定化・効率的な Diffusion Transformers への道

Towards Stabilized and Efficient Diffusion Transformers through Long-Skip-Connections with Spectral Constraints

arXiv:2411.17616v5 告知タイプ:置換 要約: Diffusion Transformers (DiT) は画像およびビデオ生成における強力なアーキテクチャとして台頭し、優れた品質と拡張性を提供しています。しかし、実用的な適用において、動的な特徴の不安定性という固有の問題により、キャッシュされた推論中にエラーの増幅を引き起こしています。体系的な分析を通過して、特徴の不安定な伝達と乱...

Original: arXiv:2411.17616v5 Announce Type: replace Abstract: Diffusion Transformers (DiT) have emerged as a powerful architecture for image and video generation, offering superior quality and scalability. How...

arxiv_cs_cv 2026/2/10

OmniHD-Scenes:自律走行のための次世代マルチモーダルデータセット

OmniHD-Scenes: A Next-Generation Multimodal Dataset for Autonomous Driving

arXiv:2412.10734v5 発表タイプ:置換 要約:ディープラーニングの急速な進歩は、自律走行アルゴリズムに利用するための包括的なデータの必要性を高める傾向にあります。効果的なデータ駆動型の自律走行ソリューションの開発には、高品質なデータセットが不可欠です。次世代の自律走行データセットは、包括的なデータカバレッジ、詳細な注釈、そして多様なシーンの表現を備えた先進的なセンサーからのデータを...

Original: arXiv:2412.10734v5 Announce Type: replace Abstract: The rapid advancement of deep learning has intensified the need for comprehensive data for use by autonomous driving algorithms. High-quality datas...

arxiv_cs_cv 2026/2/10

AI 駆動脳内出血検出:不確実性を考慮した曖昧フーゼント演算子と特徴選択を備えた共スケール畳み込み注意モデル

AI-Powered Intracranial Hemorrhage Detection: A Co-Scale Convolutional Attention Model with Uncertainty-Based Fuzzy Integral Operator and Feature Screening

arXiv:2412.14869v2 Announce Type: replace Abstract: 脳内出血 (ICH) は、脳内またはその周囲の血管破裂による血液の漏出または蓄積を指します。この状態が及時に診断され適切な治療されない場合、意識低下、恒久的な神経学的障害、乃至て死に至る深刻な合併症を引き起こす可能性があります。本研究の主要な目的は、ICH の発生の有無の検出、およびその後の髄下...

Original: arXiv:2412.14869v2 Announce Type: replace Abstract: Intracranial hemorrhage (ICH) refers to the leakage or accumulation of blood within the skull, which occurs due to the rupture of blood vessels in ...