4037 articles

arxiv_cs_cv 2026/2/10

ScatSpotter —— 犬の糞検出用データセット

"ScatSpotter" -- A Dog Poop Detection Dataset

arXiv:2412.16473v2 発表タイプ: 差し替え 要約:小さい不規則な廃棄物、例えば排泄物やマイクロプラスチックは、特に混雑したシーンでは見つけることが困難であるが、環境衛生、公衆衛生、および自律的な清掃にとって重要である。我々は「ScatSpotter」を提示する:これは、小型かつ潜在的に隠れる屋外廃棄物のオブジェクト検出およびセグメンテーションシステムのトレーニングと研究のために...

Original: arXiv:2412.16473v2 Announce Type: replace Abstract: Small, amorphous waste objects such as biological droppings and microtrash can be difficult to see, especially in cluttered scenes, yet they matter...

arxiv_cs_cv 2026/2/10

ERVD: ViT ベースの効率的かつ堅牢な дистillation フレームワーク:遠隔センシング画像検索のため

ERVD: An Efficient and Robust ViT-Based Distillation Framework for Remote Sensing Image Retrieval

arXiv:2412.18136v2 告知 タイプ: 置換 要旨: ERVD: ViT ベースの効率的かつ堅牢な Distillation フレームワーク:遠隔センシング画像検索のため

Original: arXiv:2412.18136v2 Announce Type: replace Abstract: ERVD: An Efficient and Robust ViT-Based Distillation Framework for Remote Sensing Image Retrieval

arxiv_cs_cv 2026/2/10

クラス無視数算に関する調査:参照ベースからオープンワールドテキスト誘導アプローチまでの進展

A Survey on Class-Agnostic Counting: Advancements from Reference-Based to Open-World Text-Guided Approaches

arXiv:2501.19184v4 Announce Type: replace 要旨:ビジュアル物体重数は最近、クラス無視数算(CAC)へと転換しており、これは任意のカテゴリにまたがって物を数算する課題に対処し、柔軟で汎用性の高い数算システムの必須となる能力です。人間が既知の分類情報なしに多様なカテゴリの物を容易に識別・数算する一方で、既存の数算方法は既知のカテゴリのインスタンスの列挙に制限...

Original: arXiv:2501.19184v4 Announce Type: replace Abstract: Visual object counting has recently shifted towards class-agnostic counting (CAC), which addresses the challenge of counting objects across arbitra...

arxiv_cs_cv 2026/2/10

ImageRAG: 参照指示された画像生成のための動的な画像検索

ImageRAG: Dynamic Image Retrieval for Reference-Guided Image Generation

arXiv:2502.09411v2 Announce Type: replace 要約:拡散モデルは、高品質で多様な視覚コンテンツの合成を可能にしています。ただし、稀なまたは未見の概念の生成においては限界があります。この課題に対処するために、我々は画像生成モデルとの検索拡張生成 (RAG) の利用を検討しました。我々は、与えられたテキストプロンプトに基づいて関連する画像を動的に検索し、それらをコ...

Original: arXiv:2502.09411v2 Announce Type: replace Abstract: Diffusion models enable high-quality and diverse visual content synthesis. However, they struggle to generate rare or unseen concepts. To address t...

arxiv_cs_cv 2026/2/10

EgoLife: Egocentric Life Assistant への道

EgoLife: Towards Egocentric Life Assistant

arXiv:2503.03803v3 発表タイプ:置換 要約:私たちは、AI パワーのウェアラブルグラスを通じて個人の効力を伴い強化する Egocentric Life Assistant を開発するためのプロジェクトである EgoLife を紹介します。このアシスタントの基盤を固めるために、6 名の参加者が 1 週間同居し、AI グラスを用いたマルチモーダル EgoCentric 動画キャプチャ...

Original: arXiv:2503.03803v3 Announce Type: replace Abstract: We introduce EgoLife, a project to develop an egocentric life assistant that accompanies and enhances personal efficiency through AI-powered wearab...

arxiv_cs_cv 2026/2/10

TruthPrInt: Latent Truthful-Guided Pre-Interventionによる大規模ビジョン・言語モデルのオブジェクト嘘偽の軽減

TruthPrInt: Mitigating Large Vision-Language Models Object Hallucination Via Latent Truthful-Guided Pre-Intervention

arXiv:2503.10602v3 Announce Type: replace 要旨:オブジェクト嘘偽(Object Hallucination, OH)は、大規模ビジョン・言語モデル(LVLMs)の信頼性に関する主要な課題の一つと認識されています。大規模言語モデル(LLMs)の最近の進歩は、生成された応答の「全体的な真実性」がハイドンステートなどの内部状態にエンコードされていることを示唆して...

Original: arXiv:2503.10602v3 Announce Type: replace Abstract: Object Hallucination (OH) has been acknowledged as one of the major trustworthy challenges in Large Vision-Language Models (LVLMs). Recent advancem...

arxiv_cs_cv 2026/2/10

対抗的摩耗と劣化:物理世界における対抗サンプルを生成するため、自然な損傷を活用する

Adversarial Wear and Tear: Exploiting Natural Damage for Generating Physical-World Adversarial Examples

arXiv:2503.21164v2 Announce Type: replace 要旨:物理世界における対抗サンプルの存在は、自律走行など安全関連アプリケーションにおけるディープニューラルネットワークの展開に重大な課題を提起しています。既存の物理世界対抗サンプル作成方法の多くは、特定のシナリオに合わせて調整された影、レーザービーム、シールなどの一時的な修正に依存する、即興的なアプローチです。本論...

Original: arXiv:2503.21164v2 Announce Type: replace Abstract: The presence of adversarial examples in the physical world poses significant challenges to the deployment of Deep Neural Networks in safety-critica...

arxiv_cs_cv 2026/2/10

ターゲット不要な LiDAR カメラ補正とニューラルガウススプラッティング

Targetless LiDAR-Camera Calibration with Neural Gaussian Splatting

arXiv:2504.04597v3 発表タイプ: 差し替え 要旨:高精度な LiDAR-カメラ補正是多传感器システムにおいて極めて重要である。しかし、従来手法はしばしば物理標的を介しており、実 world デプロイメントにおいて非現実的である。また、慎重に計算された外観もセンサードリフトや外部干渉により時間が経つと劣化する必要があるため、定期的な再補正が必要である。これらの課題に対処するために、...

Original: arXiv:2504.04597v3 Announce Type: replace Abstract: Accurate LiDAR-camera calibration is crucial for multi-sensor systems. However, traditional methods often rely on physical targets, which are impra...

arxiv_cs_cv 2026/2/10

VisionReasoner: レイニンforcing Learning を活用した統一的な推論統合視覚認識

VisionReasoner: Unified Reasoning-Integrated Visual Perception via Reinforcement Learning

arXiv:2505.12081v5 発表タイプ:置換 要旨:大規模な視線言語モデルは、多様な視覚認識タスクに対応する内在的能力を示しています。この論文では、複数の視覚認識タスクを統合されたモデル内で推論および解決可能な統一的なフレームワークである VisionReasoner を導入します。具体的には、統一的な報酬メカニズムと多対象認知学習戦略を設計することで、VisionReasoner は...

Original: arXiv:2505.12081v5 Announce Type: replace Abstract: Large vision-language models exhibit inherent capabilities to handle diverse visual perception tasks. In this paper, we introduce VisionReasoner, a...

arxiv_cs_cv 2026/2/10

ReaMOT:論理的推論に基づく多オブジェクト追跡のためのベンチマークとフレームワーク

ReaMOT: A Benchmark and Framework for Reasoning-based Multi-Object Tracking

arXiv:2505.20381v2 Announce Type: replace 要約:参照多オブジェクト追跡(RMOT)は、言語指令によって指定された目標を追跡することを目的としています。しかし、既存の RMOT パラダイムは明示的な指令に大きく設計されており、論理的推論を必要とする複雑な指令への一般化に失敗しています。これを克服するために、モデルが論理的推論を通じて明示的な制約を満たさない目...

Original: arXiv:2505.20381v2 Announce Type: replace Abstract: Referring Multi-Object Tracking (RMOT) aims to track targets specified by language instructions. However, existing RMOT paradigms are largely desig...

arxiv_cs_cv 2026/2/10

カメラを使わずに NeRF は見ることができますか?

Can NeRFs See without Cameras?

arXiv:2505.22441v3 発表 タイプ:置換 要約:神経放射領域(NeRFs)は、ボリュームscene関数を最適化することで、3Dシーンの新規ビューの合成に驚くほど成功しています。このscene関数は、3Dオブジェクトからカメラピクセルへカラー情報を伝える光学的レイの仕組みをモデル化します。電波(RF)や音声信号も、環境情報をセンサへ搬送するための手段と見なせます。ただし、カメラピクセ...

Original: arXiv:2505.22441v3 Announce Type: replace Abstract: Neural Radiance Fields (NeRFs) have been remarkably successful at synthesizing novel views of 3D scenes by optimizing a volumetric scene function. ...

arxiv_cs_cv 2026/2/10

3Dシーンセグメンテーションにおける幾何学増強パラメータ効率化ファインチューニング

On Geometry-Enhanced Parameter-Efficient Fine-Tuning for 3D Scene Segmentation

arXiv:2505.22444v3 Announce Type: replace Abstract: 大規模事前学習済みポイントクラウドモデルの出現は、3Dシーン理解を劇的に進歩させましたが、これらを特定のダウンストリーミングタスクに適応させるには通常、完全なファインチューニングを必要とします。これにより、高い計算コストとストレージコストが発生します。自然言語処理および2Dビジョンタスクにおい...

Original: arXiv:2505.22444v3 Announce Type: replace Abstract: The emergence of large-scale pre-trained point cloud models has significantly advanced 3D scene understanding, but adapting these models to specifi...

arxiv_cs_cv 2026/2/10

MonkeyOCR: 構造認識・関係トリプレットパラダイムによるドキュメント解析

MonkeyOCR: Document Parsing with a Structure-Recognition-Relation Triplet Paradigm

arXiv:2506.05218v2 発表タイプ:代替 要旨:構造認識・関係(Structure-Recognition-Relation: SRR)トリプレットパラダイムを利用したドキュメント解析モデル MonkeyOCR を提案します。この設計は、それ自体が複雑で多機能のツールパイプラインとなることを避け、大規模エンドツーエンドモデルでのフルページの処理による非効率性を回避することで、最先端の...

Original: arXiv:2506.05218v2 Announce Type: replace Abstract: We introduce MonkeyOCR, a document parsing model that advances the state of the art by leveraging a Structure-Recognition-Relation (SRR) triplet pa...

arxiv_cs_cv 2026/2/10

トランスフォーマーベースモデルにおける敵対的ウォーターマークリングの探求:医療画像に対する転移性と防御メカニズムに対する頑健性

Exploring Adversarial Watermarking in Transformer-Based Models: Transferability and Robustness Against Defense Mechanism for Medical Images

arXiv:2506.06389v3 Announce Type: replace 摘要: 深層学習モデルは皮膚科画像分析における驚異的な成功を遂げ、自動的皮肤疾患診断の可能性を秘めています。以前、写象ニューラルネットワーク (CNN) に基づいたアーキテクチャは、皮膚画像認識、生成、およびビデオ分析などのコンピュータビジョン (CV) タスクにおいて圧倒的な人気と成功を収めました。しかし、トラン...

Original: arXiv:2506.06389v3 Announce Type: replace Abstract: Deep learning models have shown remarkable success in dermatological image analysis, offering potential for automated skin disease diagnosis. Previ...

arxiv_cs_cv 2026/2/10

ハイシノグラム補完におけるトレーニングフリー推論

Training-Free Inference for High-Resolution Sinogram Completion

arXiv:2506.08809v4 Announce Type: replace 要約:ハイシノグラム補完は、欠落している投影データによる深刻なアーチファクトを防ぐためにコンピュータ断層法再構築において極めて重要です。ディフューションモデルはこのタスクに強力な生成事前分布を提供しますが、推論コストは解像度の上昇とともに禁止的に高くなります。私たちは、ハイシノグラム補完のためのトレーニングフリーか...

Original: arXiv:2506.08809v4 Announce Type: replace Abstract: High-resolution sinogram completion is critical for computed tomography reconstruction, as missing projections can introduce severe artifacts. Whil...

arxiv_cs_cv 2026/2/10

イメージフィルタリングとブースティングの知見に基づいて Transformer を再考する

Revisiting Transformers with Insights from Image Filtering and Boosting

arXiv:2506.10371v2 発表型: 差し替え 要旨: Transformer 型最先进深学習アーキテクチャの柱となっている自己注意力(self-attention)機構は、概率的に駆動され、根本的に解釈が困難です。そのため、その驚異的な成功と制限を説明する堅牢な理論的基礎を確立することが、最近の研究においてますます重要になっています。いくつかの注目すべき方向性は、自己注意力を理解する際...

Original: arXiv:2506.10371v2 Announce Type: replace Abstract: The self-attention mechanism, a cornerstone of Transformer-based state-of-the-art deep learning architectures, is largely heuristic-driven and fund...

arxiv_cs_cv 2026/2/10

VLMs に対する視覚認識攻撃への本質的な頑健性について

Toward Inherently Robust VLMs Against Visual Perception Attacks

arXiv:2506.11472v3 Announce Type: replace Abstract: 自律型車両は、ディープニューラルネットワーク(DNN)を交通標識認識、車線中央揃え、および車両検出のために依存していますが、これらのモデルは誤分類を引き起こし、安全性を脅かす攻撃に脆弱です。既存の防御策(例:对抗性訓練)は、一般化に失敗し、クリーンアキュラシーを低下させることがよくあります。当論...

Original: arXiv:2506.11472v3 Announce Type: replace Abstract: Autonomous vehicles rely on deep neural networks (DNNs) for traffic sign recognition, lane centering, and vehicle detection, yet these models are v...

arxiv_cs_cv 2026/2/10

ゲートアテンションと学習可能なサンプリングを用いた大規模マルチモーダルモデルにおける時長動画理解のための状態空間階層圧縮

State-Space Hierarchical Compression with Gated Attention and Learnable Sampling for Hour-Long Video Understanding in Large Multimodal Models

arXiv:2506.13564v2 Announce Type: replace 抽象:本稿では、大規模マルチモーダルモデルへ入力する前に膨大な動画フレーム機能を圧縮する効率的なフレームワークを提案し、時長動画に伴う深刻なトークン爆発を軽減します。当設計は、ゲートスキップ結合と周期性に挿入された学習済みクエリに適用される学習済みウェイト平均プーリング機構を備えた双方向状態空間モデルを活用していま...

Original: arXiv:2506.13564v2 Announce Type: replace Abstract: We propose an efficient framework to compress massive video-frame features before feeding them into large multimodal models, thereby mitigating the...

arxiv_cs_cv 2026/2/10

RealSR-R1: 画像修復における現実世界向け画像超解像度に対するリニアクトルーニングとビジョン言語思考の連鎖

RealSR-R1: Reinforcement Learning for Real-World Image Super-Resolution with Vision-Language Chain-of-Thought

arXiv:2506.16796v3 Announce Type: replace 摘要:現実世界画像超解像度は画像修復において最も困難な課題の一つです。しかし、既存の方法は変形された画像の内容を正確に理解できず、再生成された結果は低画質で不自然になりがちです。本研究では、現実世界画像超解像度における理解および推論能力を強化するための RealSR-R1 を提唱します。大規模言語モデル(LLM)...

Original: arXiv:2506.16796v3 Announce Type: replace Abstract: Real-World Image Super-Resolution is one of the most challenging task in image restoration. However, existing methods struggle with an accurate und...

arxiv_cs_cv 2026/2/10

調製と再構築:非整列化されたスマートフォンの視野からハイ퍼스スペクトルイメージングを学習する

Modulate and Reconstruct: Learning Hyperspectral Imaging from Misaligned Smartphone Views

arXiv:2507.01835v3 発表型:置き換え 【摘要】RGB 画像からのハイ퍼스スペクトル再構築(HSR)は、劇的なスペクトル情報の損失によって根本的に逆問題であり、既存のアプローチは単一の RGB 画像に依存し、再構築精度の限界があります。本研究では、2 つのレンズに慎重に選択されたスペクトルフィルターを装備した三レンズカメラシステムを活用した、新しいマルチ画像からハイルスpectr...

Original: arXiv:2507.01835v3 Announce Type: replace Abstract: Hyperspectral reconstruction (HSR) from RGB images is a fundamentally ill-posed problem due to severe spectral information loss. Existing approache...