12673 articles

Vectra：EコマースのIn-Image Machine Translation（IIMT）における視覚品質評価のための新しい指標、データセット、モデル

Vectra: A New Metric, Dataset, and Model for Visual Quality Assessment in E-Commerce In-Image Machine Translation

arXiv:2602.07014v1 公開タイプ: new 要約: In-Image Machine Translation（IIMT）は越境Eコマースの商品出品を支えている。既存の研究は主に機械翻訳の評価に焦点を当てているが、視覚的レンダリングの品質はユーザーのエンゲージメントにとって重要である。コンテクストに富む商品画像やマルチモーダルな欠陥に直面した場合、従来の参照ベースの手法（例: SSI...

Original: arXiv:2602.07014v1 Announce Type: new Abstract: In-Image Machine Translation (IIMT) powers cross-border e-commerce product listings; existing research focuses on machine translation evaluation, while...

Vectra：EコマースのIn-Image Machine Translation（IIMT）における視覚品質評価のための新しい指標、データセット、モデル

頑健でリアルタイムなバングラデシュ通貨認識：デュアルストリームMobileNetとEfficientNetによるアプローチ

Gaussian-constrained LeJEPA 表現による教師なしシーン発見とポーズ整合性

XAI-CLIP: ROI-Guided Perturbation Framework for Explainable Medical Image Segmentation in Multimodal Vision-Language Models

航空安全のための深層学習に基づく多段階分類

Vision Language Modelsにおける表現の失敗の幾何学

Multimodal Large Language Models向け Modality Gap 駆動サブスペース整合トレーニングパラダイム

Vision-Language Modelsにおける証拠バランスを考慮したTest-Time AdaptationのためのFair Context Learning

CNNとCNN-ANFISアーキテクチャにおける敵対的頑健性の比較研究

UNIKIE-BENCH: Visual Documents における Key Information Extraction のための Large Multimodal Models ベンチマーク

OMNI-Dent：自動歯科診断のためのアクセス可能で説明可能なAIフレームワークに向けて

COMBOOD: 画像分類におけるOut-of-distribution（OOD）データ検出のためのSemiparametricアプローチ

PipeMFL-240K：パイプライン Magnetic Flux Leakage（MFL）イメージングにおける物体検出のための大規模データセットとベンチマーク

VLRS-Bench: Remote Sensing 向けの Vision-Language Reasoning ベンチマーク

ShapBPT：データ認識型 Binary Partition Tree を用いた画像特徴帰属

IMUベースのオンライン手書き認識をContrastive Learningで強化（Zero Inference Overhead）

Video World Modelsにおける物理の解釈

Neural Sentinel：Human-in-the-Loop Continual Learning を用いたナンバープレート認識のための Unified Vision Language Model (VLM)

正確かつアクセス性の高いマーカーレスニューロナビゲーションへの道

RECITYGEN：潜变量扩散と Segment Anything モデルを用いたインタラクティブかつ生成型の参加型都市設計ツール