4037 articles
学習してはいけない箇所:信頼できる意思決定のための Prior-Aligned Training と Subset-based Attribution Constraints
Where Not to Learn: Prior-Aligned Training with Subset-based Attribution Constraints for Reliable Decision-Making
arXiv:2602.07008v1 アナウンス種別: new 要旨: 信頼できるモデルは単に正しく予測するだけでなく、受け入れ可能な証拠によって決定を正当化できるべきである。しかし従来の監督学習は通常クラスレベルのラベルしか提供しないため、モデルは意図された証拠ではなくショートカット相関を利用して高い精度を達成してしまうことがある。人間のprior(事前知識)はこのような挙動を制約するのに役立...
Original: arXiv:2602.07008v1 Announce Type: new Abstract: Reliable models should not only predict correctly, but also justify decisions with acceptable evidence. Yet conventional supervised learning typically ...
MAU-GPT: Anomaly-aware and Generalist Experts Adaptation によるマルチタイプ産業異常理解の強化
MAU-GPT: Enhancing Multi-type Industrial Anomaly Understanding via Anomaly-aware and Generalist Experts Adaptation
arXiv:2602.07011v1 公開タイプ: new 概要: 産業製造が拡大するにつれて、品質管理のための細粒度な製品画像解析の自動化が重要になっている。しかし、既存のアプローチはデータセットのカバレッジ不足と、多様で複雑な異常パターンに対するモデルの一般化性能の低さによって制約されている。これらの課題に対処するため、本研究では Multi-type industrial Anomaly U...
Original: arXiv:2602.07011v1 Announce Type: new Abstract: As industrial manufacturing scales, automating fine-grained product image analysis has become critical for quality control. However, existing approache...
網膜セグメンテーションと定量化のための汎用モデル
A General Model for Retinal Segmentation and Quantification
arXiv:2602.07012v1 公開タイプ: new 要旨: 網膜イメージングは高速で非侵襲的、かつ広く利用可能であり、眼科および全身の健康評価に対して定量化可能な構造的および血管学的シグナルを提供する。このアクセスの容易さは、定量的な網膜フェノタイプが眼疾患や全身疾患とどのように関連するかを研究する機会を生む。しかし、公的なマルチラベルデータセットの限られた利用可能性や、セグメンテーション...
Original: arXiv:2602.07012v1 Announce Type: new Abstract: Retinal imaging is fast, non-invasive, and widely available, offering quantifiable structural and vascular signals for ophthalmic and systemic health a...
「ノー」を言わせるステアリング:Vision Language Modelsにおけるactivation steeringによるConfigurable Refusal
Steering to Say No: Configurable Refusal via Activation Steering in Vision Language Models
arXiv:2602.07013v1 アナウンス種別: new 概要: Vision Language Models (VLMs) の急速な進展に伴い、refusal mechanismsは責任ある安全なモデル挙動を確保するための重要な要素となっている。しかし、既存のrefusal strategiesは概して one-size-fits-all であり、多様なユーザーのニーズや文脈上の制約に適...
Original: arXiv:2602.07013v1 Announce Type: new Abstract: With the rapid advancement of Vision Language Models (VLMs), refusal mechanisms have become a critical component for ensuring responsible and safe mode...
Vectra:EコマースのIn-Image Machine Translation(IIMT)における視覚品質評価のための新しい指標、データセット、モデル
Vectra: A New Metric, Dataset, and Model for Visual Quality Assessment in E-Commerce In-Image Machine Translation
arXiv:2602.07014v1 公開タイプ: new 要約: In-Image Machine Translation(IIMT)は越境Eコマースの商品出品を支えている。既存の研究は主に機械翻訳の評価に焦点を当てているが、視覚的レンダリングの品質はユーザーのエンゲージメントにとって重要である。コンテクストに富む商品画像やマルチモーダルな欠陥に直面した場合、従来の参照ベースの手法(例: SSI...
Original: arXiv:2602.07014v1 Announce Type: new Abstract: In-Image Machine Translation (IIMT) powers cross-border e-commerce product listings; existing research focuses on machine translation evaluation, while...
頑健でリアルタイムなバングラデシュ通貨認識:デュアルストリームMobileNetとEfficientNetによるアプローチ
Robust and Real-Time Bangladeshi Currency Recognition: A Dual-Stream MobileNet and EfficientNet Approach
arXiv:2602.07015v1 発表タイプ:new 概要:視覚障害者が紙幣を識別する際に他者に依存することは、不正や搾取のリスクを高めるため、正確な通貨認識は支援技術において重要である。本研究ではまず、制御下および実世界のシナリオの両方を含む新しいバングラデシュ紙幣データセットを構築し、より包括的で多様な表現を確保した。次に、データセットの頑健性を高めるために、公開ベンチマークを含む4つの...
Original: arXiv:2602.07015v1 Announce Type: new Abstract: Accurate currency recognition is essential for assistive technologies, particularly for visually impaired individuals who rely on others to identify ba...
Gaussian-constrained LeJEPA 表現による教師なしシーン発見とポーズ整合性
Gaussian-Constrained LeJEPA Representations for Unsupervised Scene Discovery and Pose Consistency
arXiv:2602.07016v1 アナウンス種別: new 概要: 非構造化された画像コレクションからの教師なし3Dシーン再構築は、特に画像が複数の無関係なシーンから取得され視覚的曖昧性が大きい場合に、コンピュータビジョンにおける根本的な課題であり続ける。Image Matching Challenge 2025 (IMC2025) は、外れ値や混合コンテンツを含む実世界条件下でシーン発見と...
Original: arXiv:2602.07016v1 Announce Type: new Abstract: Unsupervised 3D scene reconstruction from unstructured image collections remains a fundamental challenge in computer vision, particularly when images o...
XAI-CLIP: ROI-Guided Perturbation Framework for Explainable Medical Image Segmentation in Multimodal Vision-Language Models
arXiv:2602.07017v1 発表タイプ: new 概要: 医用画像セグメンテーションは臨床ワークフローにおいて正確な診断、治療計画、疾患のモニタリングを可能にする重要な要素です。しかし、transformer-based models が convolutional architectures を上回る優れた性能を示しているにもかかわらず、解釈性の不足は臨床での信頼獲得と導入の大きな障...
Original: arXiv:2602.07017v1 Announce Type: new Abstract: Medical image segmentation is a critical component of clinical workflows, enabling accurate diagnosis, treatment planning, and disease monitoring. Howe...
航空安全のための深層学習に基づく多段階分類
Deep Learning Based Multi-Level Classification for Aviation Safety
arXiv:2602.07019v1 公開種別: new 概要: バードストライクは航空安全にとって重大な脅威であり、しばしば死亡、機体の重大な損傷、及び多大な経済的損失を引き起こす。既存のバードストライク防止策は主に鳥類レーダ(avian radar)システムに依存しており、これらは鳥をリアルタイムで検出・追跡する。しかし、これらのシステムの主な制約は鳥種の識別ができない点である。鳥種は異なる...
Original: arXiv:2602.07019v1 Announce Type: new Abstract: Bird strikes pose a significant threat to aviation safety, often resulting in loss of life, severe aircraft damage, and substantial financial costs. Ex...
Vision Language Modelsにおける表現の失敗の幾何学
The Geometry of Representational Failures in Vision Language Models
arXiv:2602.07025v1 発表タイプ: new 要旨: Vision-Language Models (VLMs) は、存在しない要素を幻覚したり、注意をそらす対象の中から最も類似した物体を識別できなかったりするなど、マルチオブジェクト視覚タスクで不可解な失敗を示します。これらのエラーは「Binding Problem」のような人間の認知的制約を反映する一面がありますが、人工システムに...
Original: arXiv:2602.07025v1 Announce Type: new Abstract: Vision-Language Models (VLMs) exhibit puzzling failures in multi-object visual tasks, such as hallucinating non-existent elements or failing to identif...
Multimodal Large Language Models向け Modality Gap 駆動サブスペース整合トレーニングパラダイム
Modality Gap-Driven Subspace Alignment Training Paradigm For Multimodal Large Language Models
arXiv:2602.07026v1 発表タイプ: new 概要: マルチモーダルな contrastive learning は視覚表現と言語表現の整合に成功しているにもかかわらず、持続的な幾何学的異常である Modality Gap が依然として存在する。異なるモダリティで同一の意味を表す埋め込みが系統的にオフセットした領域を占めるという現象である。従来のモダリティギャップ解消アプローチは、...
Original: arXiv:2602.07026v1 Announce Type: new Abstract: Despite the success of multimodal contrastive learning in aligning visual and linguistic representations, a persistent geometric anomaly, the Modality ...
Vision-Language Modelsにおける証拠バランスを考慮したTest-Time AdaptationのためのFair Context Learning
Fair Context Learning for Evidence-Balanced Test-Time Adaptation in Vision-Language Models
arXiv:2602.07027v1 発表種別: new Abstract: Vision-Language Models (VLMs) such as CLIPは強力なzero-shot認識を可能にする一方で、分布シフト下で大幅に性能が劣化する。Test-Time Adaptation (TTA)はラベルなしのテストサンプルのみを用いて頑健性を向上させることを目指すが、ほとんどのprompt-...
Original: arXiv:2602.07027v1 Announce Type: new Abstract: Vision-Language Models (VLMs) such as CLIP enable strong zero-shot recognition but suffer substantial degradation under distribution shifts. Test-Time ...
CNNとCNN-ANFISアーキテクチャにおける敵対的頑健性の比較研究
A Comparative Study of Adversarial Robustness in CNN and CNN-ANFIS Architectures
arXiv:2602.07028v1 アナウンス種別: new 概要: Convolutional Neural Networks (CNNs) は強力な画像分類性能を達成する一方で、解釈性に欠け、敵対的攻撃に対して脆弱である。DCNFISのようなneuro-fuzzyハイブリッドは、解釈性を高めるために全結合CNN分類器(fully connected CNN classifiers)をAdap...
Original: arXiv:2602.07028v1 Announce Type: new Abstract: Convolutional Neural Networks (CNNs) achieve strong image classification performance but lack interpretability and are vulnerable to adversarial attack...
UNIKIE-BENCH: Visual Documents における Key Information Extraction のための Large Multimodal Models ベンチマーク
UNIKIE-BENCH: Benchmarking Large Multimodal Models for Key Information Extraction in Visual Documents
arXiv:2602.07038v1 発表種別: new 概要: 実世界の文書からの Key Information Extraction (KIE) は、レイアウト構造、視覚品質、およびタスク固有の情報要件の大きなばらつきにより依然として困難です。最近の Large Multimodal Models (LMMs) は、文書画像からエンドツーエンドで直接 KIE を行う有望な可能性を示していま...
Original: arXiv:2602.07038v1 Announce Type: new Abstract: Key Information Extraction (KIE) from real-world documents remains challenging due to substantial variations in layout structures, visual quality, and ...
OMNI-Dent:自動歯科診断のためのアクセス可能で説明可能なAIフレームワークに向けて
OMNI-Dent: Towards an Accessible and Explainable AI Framework for Automated Dental Diagnosis
arXiv:2602.07041v1 発表タイプ: new 要旨: 正確な歯科診断は口腔保健に不可欠ですが、多くの人は迅速な専門家による評価を受けられません。既存のAIベース手法は主に診断を視覚的パターン認識タスクとして扱い、歯科専門家が用いる構造化された臨床的推論を反映していません。これらのアプローチはまた、専門家によるアノテーション済みデータを大量に必要とし、多様な実世界の撮影条件に対して一...
Original: arXiv:2602.07041v1 Announce Type: new Abstract: Accurate dental diagnosis is essential for oral healthcare, yet many individuals lack access to timely professional evaluation. Existing AI-based metho...
COMBOOD: 画像分類におけるOut-of-distribution(OOD)データ検出のためのSemiparametricアプローチ
COMBOOD: A Semiparametric Approach for Detecting Out-of-distribution Data for Image Classification
arXiv:2602.07042v1 発表タイプ: new 概要: 推論時におけるOut-of-distribution(OOD)データの同定は、特に自動化を目的とした多くの機械学習アプリケーションにとって重要である。本稿では、画像認識に関するOOD検出のための新しい教師なしセミパラメトリックフレームワーク COMBOOD を提案する。我々のフレームワークは、nearest-neighbor と...
Original: arXiv:2602.07042v1 Announce Type: new Abstract: Identifying out-of-distribution (OOD) data at inference time is crucial for many machine learning applications, especially for automation. We present a...
PipeMFL-240K:パイプライン Magnetic Flux Leakage(MFL)イメージングにおける物体検出のための大規模データセットとベンチマーク
PipeMFL-240K: A Large-scale Dataset and Benchmark for Object Detection in Pipeline Magnetic Flux Leakage Imaging
arXiv:2602.07044v1 アナウンスタイプ: new 概要:パイプラインの健全性は産業の安全性や環境保護にとって極めて重要であり、Magnetic Flux Leakage(MFL)検出は主要な非破壊検査技術の一つです。MFLの解釈自動化に対するディープラーニングの有望性にもかかわらず、信頼できるモデルの進展は大規模な公開データセットとベンチマークの欠如により制約されており、公平な比...
Original: arXiv:2602.07044v1 Announce Type: new Abstract: Pipeline integrity is critical to industrial safety and environmental protection, with Magnetic Flux Leakage (MFL) detection being a primary non-destru...
VLRS-Bench: Remote Sensing 向けの Vision-Language Reasoning ベンチマーク
VLRS-Bench: A Vision-Language Reasoning Benchmark for Remote Sensing
arXiv:2602.07045v1 公開タイプ: new 要旨: 最近の Multimodal Large Language Models (MLLMs) の進展により複雑な推論が可能になった。しかし、既存の remote sensing (RS) ベンチマークは、物体認識やシーン分類などの知覚(perception)タスクに著しく偏っている。この制約は、認知的に高度な RS アプリケーション向...
Original: arXiv:2602.07045v1 Announce Type: new Abstract: Recent advancements in Multimodal Large Language Models (MLLMs) have enabled complex reasoning. However, existing remote sensing (RS) benchmarks remain...
ShapBPT:データ認識型 Binary Partition Tree を用いた画像特徴帰属
ShapBPT: Image Feature Attributions Using Data-Aware Binary Partition Trees
arXiv:2602.07047v1 公開種別: new 概要: ピクセルレベルの特徴帰属は、Computer Vision 向けの eXplainable AI (XCV) における重要な手段であり、画像特徴がモデルの予測にどのように影響するかについて視覚的な洞察を与える。階層的 Shapley 値のための Owen formula は、機械学習 (ML) モデルやそれらの学習表現を解釈するた...
Original: arXiv:2602.07047v1 Announce Type: new Abstract: Pixel-level feature attributions are an important tool in eXplainable AI for Computer Vision (XCV), providing visual insights into how image features i...
IMUベースのオンライン手書き認識をContrastive Learningで強化(Zero Inference Overhead)
Enhancing IMU-Based Online Handwriting Recognition via Contrastive Learning with Zero Inference Overhead
arXiv:2602.07049v1 アナウンスタイプ: new 要旨: 慣性計測ユニット(IMU)を用いたオンライン手書き認識は、紙上の手書きをデジタル機器への入力として利用できるようにする。エッジハードウェア上で処理を行うことはプライバシーを向上させ遅延を低減するが、メモリ制約を伴う。これに対処するために、我々は Error-enhanced Contrastive Handwriting ...
Original: arXiv:2602.07049v1 Announce Type: new Abstract: Online handwriting recognition using inertial measurement units opens up handwriting on paper as input for digital devices. Doing it on edge hardware i...