12673 articles
MUFASA: ViT エンコーダーの複数階層に基づくスロット注意のマルチレイヤーフレームワーク
MUFASA: A Multi-Layer Framework for Slot Attention
arXiv:2602.07544v1 発表タイプ:新規 要約:無教師のオブジェクト中心学習(OCL)は、視覚的なシーンを別々のエンティティに分解します。スロット注意は、個別のオブジェクトを潜在的ベクトル(スロット)として表現する一般的なアプローチです。現在の手法は、これらのスロット表現を前もって学習したビジョントランスフォーマー(ViT)の最終層のみから取得し、他の階層にエンコードされている貴重な...
Original: arXiv:2602.07544v1 Announce Type: new Abstract: Unsupervised object-centric learning (OCL) decomposes visual scenes into distinct entities. Slot attention is a popular approach that represents indivi...
DINOv3 の訓練なしファーストショットセグメンテーションを通じた、Foundation モデルにおける语义選択ギャップの顕在化
Revealing the Semantic Selection Gap in DINOv3 through Training-Free Few-Shot Segmentation
arXiv:2602.07550v1 Announce Type: new Abstract: 最近の自己教師あり学習 Visual Transformer(ViT)、DINOv3 などは、密集型ビジョンタスクに富んだ特徴表現を提供する。本研究では、クラス固有のプロトタイプと Gram-matrix refinement を利用した訓練フリーなベースライン FSSDINO を通じて、凍結された ...
Original: arXiv:2602.07550v1 Announce Type: new Abstract: Recent self-supervised Vision Transformers (ViTs), such as DINOv3, provide rich feature representations for dense vision tasks. This study investigates...
FlexID: 文脈認識によるモデュレーションを用いた、無教師学習の文生成画像生成への柔軟なアイデンティティ注入
FlexID: Training-Free Flexible Identity Injection via Intent-Aware Modulation for Text-to-Image Generation
arXiv:2602.07554v1 Announce Type: new 本文書: Personalized text-to-image generation aims to seamlessly integrate specific identities into textual descriptions. However, existing training-free methods of...
Original: arXiv:2602.07554v1 Announce Type: new Abstract: Personalized text-to-image generation aims to seamlessly integrate specific identities into textual descriptions. However, existing training-free metho...
VISOR: 言語駆動型オブジェクトナビゲーションのための可視空間オブジェクト推論
VISOR: VIsual Spatial Object Reasoning for Language-driven Object Navigation
arXiv:2602.07555v1 発表 タイプ:新規 要約:言語駆動型オブジェクトナビゲーションは、エージェントが目的の物体に関する自然言語記述を解釈することを要求します。この記述は、インスタンス認識と共通知能に基づいたナビゲーションのために内在的および外在的特性を組み合わせています。既存の手法は、(i) 視覚言語埋め込みを使用するエンドツーエンドで訓練されたモデルで、これらは訓練データの外へ...
Original: arXiv:2602.07555v1 Announce Type: new Abstract: Language-driven object navigation requires agents to interpret natural language descriptions of target objects, which combine intrinsic and extrinsic a...
SIGMA: マルチ属性トークンを用いた選択的インターリーブ生成
SIGMA: Selective-Interleaved Generation with Multi-Attribute Tokens
arXiv:2602.07564v1 Announcement Type: new アブストラクト:最近の統一モデルである Bagel は、並列なイメージ編集データが単一の拡散トランスフォーマー内で複数の視覚タスクを効果的にアライメントできることを示しました。しかし、これらのモデルは単一条件入力に限定されており、複数の異性なソースから結果を合成するための柔軟性を欠いています。本研究では、拡散トラン...
Original: arXiv:2602.07564v1 Announce Type: new Abstract: Recent unified models such as Bagel demonstrate that paired image-edit data can effectively align multiple visual tasks within a single diffusion trans...
距離から的人类識別:課題、手法および HID 2025 コンペティションの結果
Human Identification at a Distance: Challenges, Methods and Results on the Competition HID 2025
arXiv:2602.07565v1 Announce Type: new 摘要:距離から的人类識別(HID)は、伝統的な生体認識形態(例えば顔認識や指紋)を実世界シーンで収集するのが難しいため、大きな課題です。歩行認識は、距離から確実に撮影できるという実用的な代替案を提供します。歩行認識の進展を促進し、公平な評価プラットフォームを提供するために、国際距離から的人类識別コンペティション(HID)は...
Original: arXiv:2602.07565v1 Announce Type: new Abstract: Human identification at a distance (HID) is challenging because traditional biometric modalities such as face and fingerprints are often difficult to a...
不整合表現学習に基づくカウスのクロスカメラ識別
Cross-Camera Cow Identification via Disentangled Representation Learning
arXiv:2602.07566v1 発表型:新規 要約:スマート畜舎における包括的なデジタル管理のための個体別の牛の精密な識別は、基本的な前提条件です。既存の動物識別方法は、制御された単一カメラの設定では優れていますが、クロスカメラでの汎用性には重大な課題を抱えています。源カメラで訓練されたモデルを、異なる照明、背景、視点、および異質的な撮像特性を持つ新規監視ノードに展開すると、認識性能が劇的に...
Original: arXiv:2602.07566v1 Announce Type: new Abstract: Precise identification of individual cows is a fundamental prerequisite for comprehensive digital management in smart livestock farming. While existing...
不可視性の可視化:タスク駆動型クロマティックエンコーディングによる乳腺 X 線撮影における放射線科医のパフォーマンス向上
Visualizing the Invisible: Enhancing Radiologist Performance in Breast Mammography via Task-Driven Chromatic Encoding
arXiv:2602.07568v1 告知タイプ:新規 概要:目的:乳房組織の密度が高いため、組織の重なりや微妙な所見が存在する乳がんスクリーニングの乳腺 X 線撮影では感度が低下し、視覚的な判別が困難になります。本稿では、単色画像をタスク駆動型クロマティックエンコーディング(TDCE)された視界に変換することで視覚的な増強を行う、エンドツーエンドのフレームワーク MammoColor を提案しま...
Original: arXiv:2602.07568v1 Announce Type: new Abstract: Purpose:Mammography screening is less sensitive in dense breasts, where tissue overlap and subtle findings increase perceptual difficulty. We present M...
ViCA: 視覚のみで Cross-Attention を持つ効率的なマルチモーダル LLM
ViCA: Efficient Multimodal LLMs with Vision-Only Cross-Attention
arXiv:2602.07574v1 発表タイプ: 新規 要約:現代のマルチモーダル大規模言語モデル (MLLM) は、すべての Transformer レイヤで視覚トークンとテキストトークンを処理する統一された自己注意思念 (self-attention) デザインを採用しており、これは著しい計算オーバーヘッドを生じさせます。本稿では、この稠密な視覚処理の必要性を再考し、投影された視覚エンベッデ...
Original: arXiv:2602.07574v1 Announce Type: new Abstract: Modern multimodal large language models (MLLMs) adopt a unified self-attention design that processes visual and textual tokens at every Transformer lay...
パラメトリックモデリングに基づく合成データで訓練された教師あり学習モデルを用いた自動岩盤接合部経路マッピング
Automated rock joint trace mapping using a supervised learning model trained on synthetic data generated by parametric modelling
arXiv:2602.07590v1 発表タイプ:新 要約:本稿は、画像から自動的な岩盤接合部経路マッピングを実現するための地質学駆動型機械学習手法を提示する。本アプローチは、限られた実データとクラス的不平衡の問題に対処するために、地質学モデル化、合成データ生成、および教師あり画像分割を組み合わせる。第一に、パラメトリックモデリングを用いた場観測におけるスケールに適合する接合部のある岩盤画像を生成...
Original: arXiv:2602.07590v1 Announce Type: new Abstract: This paper presents a geology-driven machine learning method for automated rock joint trace mapping from images. The approach combines geological model...
TeleBoost: 高忠実性、制御可能、および頑健なビデオ生成のための体系的なアライメントフレームワーク
TeleBoost: A Systematic Alignment Framework for High-Fidelity, Controllable, and Robust Video Generation
arXiv:2602.07595v1 発表 タイプ:新 要旨:事前学習モデルを、指示に従う、制御可能、かつ長期間の時系列の文脈で頑健な制作物指向モデルに変換する決定的なステップは、ポストトレーニングである。この報告書では、上質なポリシー形成、報酬駆動型強化学習、および好まれの基盤での微調整を、安定性を制約する単一の最適化スタックに統合する体系的なポストトレーニングフレームワークを提示する。このフレ...
Original: arXiv:2602.07595v1 Announce Type: new Abstract: Post-training is the decisive step for converting a pretrained video generator into a production-oriented model that is instruction-following, controll...
Fine-R1: Chain-of-Thought 推論を用いたマルチモーダル LLM の微細な視覚認識における卓越性の向上
Fine-R1: Make Multi-modal LLMs Excel in Fine-Grained Visual Recognition by Chain-of-Thought Reasoning
arXiv:2602.07605v1 Announce Type: new 要旨:視覚世界内の任意のエントリティーは、共有された特性に基づき階層的にグループ化され、微細なサブカテゴリーにマップされる。マルチモーダル大規模言語モデル (MLLM) は粗粒度の視覚タスクで高い性能を示すが、微細な視覚認識 (FGVR) ではしばしば困難を覚える。汎用 MLLM を FGVR に適応させるためには、入手...
Original: arXiv:2602.07605v1 Announce Type: new Abstract: Any entity in the visual world can be hierarchically grouped based on shared characteristics and mapped to fine-grained sub-categories. While Multi-mod...
HistoMet: 一次腫瘍の組織学画像から転移進展と転移部位の親和性を予後予測するための全がん用ディープラーニングフレームワーク
HistoMet: A Pan-Cancer Deep Learning Framework for Prognostic Prediction of Metastatic Progression and Site Tropism from Primary Tumor Histopathology
arXiv:2602.07608v1 Announce Type: new Abstract: 転移進展はがん関連死亡率の主要な原因でありながら、一次腫瘍の転移可能性や転移部位を組織学的画像のみから予測することは依然として大きな課題です。また、全スライド画像(WSI)が豊富で形態的な情報を提供することは確かにありますが、従来の計算病理学のアプローチは、転移状態や部位の予測を孤立したタスクとして扱っ...
Original: arXiv:2602.07608v1 Announce Type: new Abstract: Metastatic Progression remains the leading cause of cancer-related mortality, yet predicting whether a primary tumor will metastasize and where it will...
AD-MIR: 構造化された推論を通じた広告ビデオ理解における認識から説得への架橋
AD-MIR: Bridging the Gap from Perception to Persuasion in Advertising Video Understanding via Structured Reasoning
arXiv:2602.07625v1 Announce Type: new 抽象: 広告ビデオの多モーダルな理解は、視覚的故事性を抽象的な説得戦略との複雑な関係を読み解くために不可欠である。しかし、既存のエージェントは一般検索において優れているにもかかわらず、ピクセルレベルの認識と高次 Marketing ロジックの間の認知的ギャップを埋めることに失敗することが多い。この課題に対処するために、A...
Original: arXiv:2602.07625v1 Announce Type: new Abstract: Multimodal understanding of advertising videos is essential for interpreting the intricate relationship between visual storytelling and abstract persua...
一般目的 3D 医学セグメンテーションにおけるモダリティ不一致と一般化の幻の解明
Uncovering Modality Discrepancy and Generalization Illusion for General-Purpose 3D Medical Segmentation
arXiv:2602.07643v1 発表タイプ:新しい 要旨:最近の 3D 医学基礎モデルは汎用的なツールとして位置づけられるようになっているものの、その検証は依然として地域画像や構造化画像に限定されており、モダリティ不一致に関する重要な研究が未踏歩です。厳密かつ客観的な評価を提供するため、私々は 490 例の全体型 PET/CT 画像と 464 例の全体型 PET/MRI 画像(約 675 ...
Original: arXiv:2602.07643v1 Announce Type: new Abstract: While emerging 3D medical foundation models are envisioned as versatile tools with offer general-purpose capabilities, their validation remains largely...
死ピクセルから編集可能なスライドへ:視言語領域理解に基づく情報図の再構築と本質的な Google スライドへの変換
From Dead Pixels to Editable Slides: Infographic Reconstruction into Native Google Slides via Vision-Language Region Understanding
arXiv:2602.07645v1 発表タイプ:新規 要旨:情報図はテキスト、アイコン、およびデータ可視化を組み合わせて情報を伝えるために広く使用されていますが、画像としてエクスポートされるとコンテンツがピクセルに固定され、更新、ローカライズ、再利用がコストのかかるものになります。我々は、視言語モデル(VLM)を用いて地区レベルの仕様を抽出し、ピクセルの幾何学をスライド座標にマッピングし、Goo...
Original: arXiv:2602.07645v1 Announce Type: new Abstract: Infographics are widely used to communicate information with a combination of text, icons, and data visualizations, but once exported as images their c...
幾何形状、クラス不均衡、および配列が再構築精度に及ぼす影響——微 CT フェントムに基づく評価
Influence of Geometry, Class Imbalance and Alignment on Reconstruction Accuracy -- A Micro-CT Phantom-Based Evaluation
arXiv:2602.07658v1 Announce Type: new 要約:医療画像から作成された 3D モデルの精度は、画像取得ハードウェア、分割手法、メッシュ処理技術などによって異なります。幾何形状の種類、クラス不均衡、ボクセルおよび点雲の配列精度への影響は十分に探求されていません。本研究では、再構築パイプライン全体の誤差を評価し、異なる分割アルゴリズムおよび幾何形状に適用できるボクセ...
Original: arXiv:2602.07658v1 Announce Type: new Abstract: The accuracy of the 3D models created from medical scans depends on imaging hardware, segmentation methods and mesh processing techniques etc. The effe...
内外両方で見聞きする:運転者安全評価とインテリジェント車両の意思決定のためのマルチモーダル人工知能システム
Looking and Listening Inside and Outside: Multimodal Artificial Intelligence Systems for Driver Safety Assessment and Intelligent Vehicle Decision-Making
arXiv:2602.07668v1 Announce Type: new 要約: 「見る内的・見る外的(LILO)」フレームワークは、外部の環境と運転者の状態を理解して安全性を向上させるインテリジェント車両アプリケーションを可能にし、スマートエアバッグの展開、自律制御移行における取り次ぎ時間予測、および運転者注意モニタリングなどの事例で実用化されています。本研究では、このフレームワークへの拡張...
Original: arXiv:2602.07668v1 Announce Type: new Abstract: The looking-in-looking-out (LILO) framework has enabled intelligent vehicle applications that understand both the outside scene and the driver state to...
視覚と言語:自律走行車用安全評価と計画のための新表現手法と人工知能
Vision and language: Novel Representations and Artificial intelligence for Driving Scene Safety Assessment and Autonomous Vehicle Planning
arXiv:2602.07680v1 Announce Type: new 摘要:視覚言語モデル(VLMs)は、近年、視覚的観測を自然言語概念と一致させる能力を持ち、安全至要な自律走行におけるセマンティックな推論に新たな機会をもたらした強力な表現学習システムとして登場しました。本稿は、この視覚言語表現を感知、予測、計画パイプラインに統合した際、それがどのように走行シーンにおける安全評価と意思決定...
Original: arXiv:2602.07680v1 Announce Type: new Abstract: Vision-language models (VLMs) have recently emerged as powerful representation learning systems that align visual observations with natural language co...
ビデオにおけるプロセス・オブ・スローヴ (Process-of-Thought) リーゼニング
Process-of-Thought Reasoning for Videos
arXiv:2602.07689v1 Announce Type: new Abstract: ビデオ・アンダースタンディングは、視覚的内容を認識するだけでなく、長期でノイズのある観測に対して時間的根拠に基づいた多段階の推論を行うことを必要としています。私たちは、ビデオ推論を軽量かつ検証可能なステップのシークエンスに構造化することで、推論プロセスを明示化する「プロセス・オブ・スローヴ (PoT) ...
Original: arXiv:2602.07689v1 Announce Type: new Abstract: Video understanding requires not only recognizing visual content but also performing temporally grounded, multi-step reasoning over long and noisy obse...