12673 articles
Vectra:EコマースのIn-Image Machine Translation(IIMT)における視覚品質評価のための新しい指標、データセット、モデル
Vectra: A New Metric, Dataset, and Model for Visual Quality Assessment in E-Commerce In-Image Machine Translation
arXiv:2602.07014v1 公開タイプ: new 要約: In-Image Machine Translation(IIMT)は越境Eコマースの商品出品を支えている。既存の研究は主に機械翻訳の評価に焦点を当てているが、視覚的レンダリングの品質はユーザーのエンゲージメントにとって重要である。コンテクストに富む商品画像やマルチモーダルな欠陥に直面した場合、従来の参照ベースの手法(例: SSI...
Original: arXiv:2602.07014v1 Announce Type: new Abstract: In-Image Machine Translation (IIMT) powers cross-border e-commerce product listings; existing research focuses on machine translation evaluation, while...
頑健でリアルタイムなバングラデシュ通貨認識:デュアルストリームMobileNetとEfficientNetによるアプローチ
Robust and Real-Time Bangladeshi Currency Recognition: A Dual-Stream MobileNet and EfficientNet Approach
arXiv:2602.07015v1 発表タイプ:new 概要:視覚障害者が紙幣を識別する際に他者に依存することは、不正や搾取のリスクを高めるため、正確な通貨認識は支援技術において重要である。本研究ではまず、制御下および実世界のシナリオの両方を含む新しいバングラデシュ紙幣データセットを構築し、より包括的で多様な表現を確保した。次に、データセットの頑健性を高めるために、公開ベンチマークを含む4つの...
Original: arXiv:2602.07015v1 Announce Type: new Abstract: Accurate currency recognition is essential for assistive technologies, particularly for visually impaired individuals who rely on others to identify ba...
Gaussian-constrained LeJEPA 表現による教師なしシーン発見とポーズ整合性
Gaussian-Constrained LeJEPA Representations for Unsupervised Scene Discovery and Pose Consistency
arXiv:2602.07016v1 アナウンス種別: new 概要: 非構造化された画像コレクションからの教師なし3Dシーン再構築は、特に画像が複数の無関係なシーンから取得され視覚的曖昧性が大きい場合に、コンピュータビジョンにおける根本的な課題であり続ける。Image Matching Challenge 2025 (IMC2025) は、外れ値や混合コンテンツを含む実世界条件下でシーン発見と...
Original: arXiv:2602.07016v1 Announce Type: new Abstract: Unsupervised 3D scene reconstruction from unstructured image collections remains a fundamental challenge in computer vision, particularly when images o...
XAI-CLIP: ROI-Guided Perturbation Framework for Explainable Medical Image Segmentation in Multimodal Vision-Language Models
arXiv:2602.07017v1 発表タイプ: new 概要: 医用画像セグメンテーションは臨床ワークフローにおいて正確な診断、治療計画、疾患のモニタリングを可能にする重要な要素です。しかし、transformer-based models が convolutional architectures を上回る優れた性能を示しているにもかかわらず、解釈性の不足は臨床での信頼獲得と導入の大きな障...
Original: arXiv:2602.07017v1 Announce Type: new Abstract: Medical image segmentation is a critical component of clinical workflows, enabling accurate diagnosis, treatment planning, and disease monitoring. Howe...
航空安全のための深層学習に基づく多段階分類
Deep Learning Based Multi-Level Classification for Aviation Safety
arXiv:2602.07019v1 公開種別: new 概要: バードストライクは航空安全にとって重大な脅威であり、しばしば死亡、機体の重大な損傷、及び多大な経済的損失を引き起こす。既存のバードストライク防止策は主に鳥類レーダ(avian radar)システムに依存しており、これらは鳥をリアルタイムで検出・追跡する。しかし、これらのシステムの主な制約は鳥種の識別ができない点である。鳥種は異なる...
Original: arXiv:2602.07019v1 Announce Type: new Abstract: Bird strikes pose a significant threat to aviation safety, often resulting in loss of life, severe aircraft damage, and substantial financial costs. Ex...
Vision Language Modelsにおける表現の失敗の幾何学
The Geometry of Representational Failures in Vision Language Models
arXiv:2602.07025v1 発表タイプ: new 要旨: Vision-Language Models (VLMs) は、存在しない要素を幻覚したり、注意をそらす対象の中から最も類似した物体を識別できなかったりするなど、マルチオブジェクト視覚タスクで不可解な失敗を示します。これらのエラーは「Binding Problem」のような人間の認知的制約を反映する一面がありますが、人工システムに...
Original: arXiv:2602.07025v1 Announce Type: new Abstract: Vision-Language Models (VLMs) exhibit puzzling failures in multi-object visual tasks, such as hallucinating non-existent elements or failing to identif...
Multimodal Large Language Models向け Modality Gap 駆動サブスペース整合トレーニングパラダイム
Modality Gap-Driven Subspace Alignment Training Paradigm For Multimodal Large Language Models
arXiv:2602.07026v1 発表タイプ: new 概要: マルチモーダルな contrastive learning は視覚表現と言語表現の整合に成功しているにもかかわらず、持続的な幾何学的異常である Modality Gap が依然として存在する。異なるモダリティで同一の意味を表す埋め込みが系統的にオフセットした領域を占めるという現象である。従来のモダリティギャップ解消アプローチは、...
Original: arXiv:2602.07026v1 Announce Type: new Abstract: Despite the success of multimodal contrastive learning in aligning visual and linguistic representations, a persistent geometric anomaly, the Modality ...
Vision-Language Modelsにおける証拠バランスを考慮したTest-Time AdaptationのためのFair Context Learning
Fair Context Learning for Evidence-Balanced Test-Time Adaptation in Vision-Language Models
arXiv:2602.07027v1 発表種別: new Abstract: Vision-Language Models (VLMs) such as CLIPは強力なzero-shot認識を可能にする一方で、分布シフト下で大幅に性能が劣化する。Test-Time Adaptation (TTA)はラベルなしのテストサンプルのみを用いて頑健性を向上させることを目指すが、ほとんどのprompt-...
Original: arXiv:2602.07027v1 Announce Type: new Abstract: Vision-Language Models (VLMs) such as CLIP enable strong zero-shot recognition but suffer substantial degradation under distribution shifts. Test-Time ...
CNNとCNN-ANFISアーキテクチャにおける敵対的頑健性の比較研究
A Comparative Study of Adversarial Robustness in CNN and CNN-ANFIS Architectures
arXiv:2602.07028v1 アナウンス種別: new 概要: Convolutional Neural Networks (CNNs) は強力な画像分類性能を達成する一方で、解釈性に欠け、敵対的攻撃に対して脆弱である。DCNFISのようなneuro-fuzzyハイブリッドは、解釈性を高めるために全結合CNN分類器(fully connected CNN classifiers)をAdap...
Original: arXiv:2602.07028v1 Announce Type: new Abstract: Convolutional Neural Networks (CNNs) achieve strong image classification performance but lack interpretability and are vulnerable to adversarial attack...
UNIKIE-BENCH: Visual Documents における Key Information Extraction のための Large Multimodal Models ベンチマーク
UNIKIE-BENCH: Benchmarking Large Multimodal Models for Key Information Extraction in Visual Documents
arXiv:2602.07038v1 発表種別: new 概要: 実世界の文書からの Key Information Extraction (KIE) は、レイアウト構造、視覚品質、およびタスク固有の情報要件の大きなばらつきにより依然として困難です。最近の Large Multimodal Models (LMMs) は、文書画像からエンドツーエンドで直接 KIE を行う有望な可能性を示していま...
Original: arXiv:2602.07038v1 Announce Type: new Abstract: Key Information Extraction (KIE) from real-world documents remains challenging due to substantial variations in layout structures, visual quality, and ...
OMNI-Dent:自動歯科診断のためのアクセス可能で説明可能なAIフレームワークに向けて
OMNI-Dent: Towards an Accessible and Explainable AI Framework for Automated Dental Diagnosis
arXiv:2602.07041v1 発表タイプ: new 要旨: 正確な歯科診断は口腔保健に不可欠ですが、多くの人は迅速な専門家による評価を受けられません。既存のAIベース手法は主に診断を視覚的パターン認識タスクとして扱い、歯科専門家が用いる構造化された臨床的推論を反映していません。これらのアプローチはまた、専門家によるアノテーション済みデータを大量に必要とし、多様な実世界の撮影条件に対して一...
Original: arXiv:2602.07041v1 Announce Type: new Abstract: Accurate dental diagnosis is essential for oral healthcare, yet many individuals lack access to timely professional evaluation. Existing AI-based metho...
COMBOOD: 画像分類におけるOut-of-distribution(OOD)データ検出のためのSemiparametricアプローチ
COMBOOD: A Semiparametric Approach for Detecting Out-of-distribution Data for Image Classification
arXiv:2602.07042v1 発表タイプ: new 概要: 推論時におけるOut-of-distribution(OOD)データの同定は、特に自動化を目的とした多くの機械学習アプリケーションにとって重要である。本稿では、画像認識に関するOOD検出のための新しい教師なしセミパラメトリックフレームワーク COMBOOD を提案する。我々のフレームワークは、nearest-neighbor と...
Original: arXiv:2602.07042v1 Announce Type: new Abstract: Identifying out-of-distribution (OOD) data at inference time is crucial for many machine learning applications, especially for automation. We present a...
PipeMFL-240K:パイプライン Magnetic Flux Leakage(MFL)イメージングにおける物体検出のための大規模データセットとベンチマーク
PipeMFL-240K: A Large-scale Dataset and Benchmark for Object Detection in Pipeline Magnetic Flux Leakage Imaging
arXiv:2602.07044v1 アナウンスタイプ: new 概要:パイプラインの健全性は産業の安全性や環境保護にとって極めて重要であり、Magnetic Flux Leakage(MFL)検出は主要な非破壊検査技術の一つです。MFLの解釈自動化に対するディープラーニングの有望性にもかかわらず、信頼できるモデルの進展は大規模な公開データセットとベンチマークの欠如により制約されており、公平な比...
Original: arXiv:2602.07044v1 Announce Type: new Abstract: Pipeline integrity is critical to industrial safety and environmental protection, with Magnetic Flux Leakage (MFL) detection being a primary non-destru...
VLRS-Bench: Remote Sensing 向けの Vision-Language Reasoning ベンチマーク
VLRS-Bench: A Vision-Language Reasoning Benchmark for Remote Sensing
arXiv:2602.07045v1 公開タイプ: new 要旨: 最近の Multimodal Large Language Models (MLLMs) の進展により複雑な推論が可能になった。しかし、既存の remote sensing (RS) ベンチマークは、物体認識やシーン分類などの知覚(perception)タスクに著しく偏っている。この制約は、認知的に高度な RS アプリケーション向...
Original: arXiv:2602.07045v1 Announce Type: new Abstract: Recent advancements in Multimodal Large Language Models (MLLMs) have enabled complex reasoning. However, existing remote sensing (RS) benchmarks remain...
ShapBPT:データ認識型 Binary Partition Tree を用いた画像特徴帰属
ShapBPT: Image Feature Attributions Using Data-Aware Binary Partition Trees
arXiv:2602.07047v1 公開種別: new 概要: ピクセルレベルの特徴帰属は、Computer Vision 向けの eXplainable AI (XCV) における重要な手段であり、画像特徴がモデルの予測にどのように影響するかについて視覚的な洞察を与える。階層的 Shapley 値のための Owen formula は、機械学習 (ML) モデルやそれらの学習表現を解釈するた...
Original: arXiv:2602.07047v1 Announce Type: new Abstract: Pixel-level feature attributions are an important tool in eXplainable AI for Computer Vision (XCV), providing visual insights into how image features i...
IMUベースのオンライン手書き認識をContrastive Learningで強化(Zero Inference Overhead)
Enhancing IMU-Based Online Handwriting Recognition via Contrastive Learning with Zero Inference Overhead
arXiv:2602.07049v1 アナウンスタイプ: new 要旨: 慣性計測ユニット(IMU)を用いたオンライン手書き認識は、紙上の手書きをデジタル機器への入力として利用できるようにする。エッジハードウェア上で処理を行うことはプライバシーを向上させ遅延を低減するが、メモリ制約を伴う。これに対処するために、我々は Error-enhanced Contrastive Handwriting ...
Original: arXiv:2602.07049v1 Announce Type: new Abstract: Online handwriting recognition using inertial measurement units opens up handwriting on paper as input for digital devices. Doing it on edge hardware i...
Video World Modelsにおける物理の解釈
Interpreting Physics in Video World Models
arXiv:2602.07050v1 発表タイプ: new 要旨: 物理的推論に関する長年の問いの一つは、video-based modelsが物理的に正確な予測を行うために物理変数のfactorized representationsに依存する必要があるのか、それともタスク固有のdistributedな方法で暗黙にそれらの変数を表現できるのか、という点である。現代のvideo world mod...
Original: arXiv:2602.07050v1 Announce Type: new Abstract: A long-standing question in physical reasoning is whether video-based models need to rely on factorized representations of physical variables in order ...
Neural Sentinel:Human-in-the-Loop Continual Learning を用いたナンバープレート認識のための Unified Vision Language Model (VLM)
Neural Sentinel: Unified Vision Language Model (VLM) for License Plate Recognition with Human-in-the-Loop Continual Learning
arXiv:2602.07051v1 発表タイプ: new 概要: 従来の Automatic License Plate Recognition (ALPR) システムは、物体検出ネットワークの後に別個の Optical Character Recognition (OCR) モジュールを配置するマルチステージパイプラインを採用しており、これにより誤差の累積、レイテンシの増加、アーキテクチャの...
Original: arXiv:2602.07051v1 Announce Type: new Abstract: Traditional Automatic License Plate Recognition (ALPR) systems employ multi-stage pipelines consisting of object detection networks followed by separat...
正確かつアクセス性の高いマーカーレスニューロナビゲーションへの道
Toward Accurate and Accessible Markerless Neuronavigation
arXiv:2602.07052v1 告知タイプ:新規 要約:ニューロナビゲーションは、頭部周りの器具の正確な配置を支援する経頭磁気刺激などの手術や介入を導き込むために、医学・生物学的研究で広く使用されています。しかし、従来のシステムは被験者装着型のマーカーに依存しており、手動での登録が必要であり、手技の進行中に移動する可能性があり、不快感を伴うことがあります。私たちは、高額なハードウェアと物理...
Original: arXiv:2602.07052v1 Announce Type: new Abstract: Neuronavigation is widely used in biomedical research and interventions to guide the precise placement of instruments around the head to support proced...
RECITYGEN:潜变量扩散と Segment Anything モデルを用いたインタラクティブかつ生成型の参加型都市設計ツール
RECITYGEN -- Interactive and Generative Participatory Urban Design Tool with Latent Diffusion and Segment Anything
arXiv:2602.07057v1 Announce Type: new Abstract: 都市設計は公共空間およびコミュニティへの関与に深く影響を及ぼします。従来のトップダウン型の手法はしばしば公共の意見を見落とし、設計の理想と現実の間にギャップを生み出しています。近年、City Information Modelling や拡張現実といったデジタルツールの進展により、都市設計にステークホル...
Original: arXiv:2602.07057v1 Announce Type: new Abstract: Urban design profoundly impacts public spaces and community engagement. Traditional top-down methods often overlook public input, creating a gap in des...