12673 articles

MUFASA: ViT エンコーダーの複数階層に基づくスロット注意のマルチレイヤーフレームワーク

MUFASA: A Multi-Layer Framework for Slot Attention

arXiv:2602.07544v1 発表タイプ：新規要約：無教師のオブジェクト中心学習（OCL）は、視覚的なシーンを別々のエンティティに分解します。スロット注意は、個別のオブジェクトを潜在的ベクトル（スロット）として表現する一般的なアプローチです。現在の手法は、これらのスロット表現を前もって学習したビジョントランスフォーマー（ViT）の最終層のみから取得し、他の階層にエンコードされている貴重な...

Original: arXiv:2602.07544v1 Announce Type: new Abstract: Unsupervised object-centric learning (OCL) decomposes visual scenes into distinct entities. Slot attention is a popular approach that represents indivi...

MUFASA: ViT エンコーダーの複数階層に基づくスロット注意のマルチレイヤーフレームワーク

DINOv3 の訓練なしファーストショットセグメンテーションを通じた、Foundation モデルにおける语义選択ギャップの顕在化

FlexID: 文脈認識によるモデュレーションを用いた、無教師学習の文生成画像生成への柔軟なアイデンティティ注入

VISOR: 言語駆動型オブジェクトナビゲーションのための可視空間オブジェクト推論

SIGMA: マルチ属性トークンを用いた選択的インターリーブ生成

距離から的人类識別：課題、手法および HID 2025 コンペティションの結果

不整合表現学習に基づくカウスのクロスカメラ識別

不可視性の可視化：タスク駆動型クロマティックエンコーディングによる乳腺 X 線撮影における放射線科医のパフォーマンス向上

ViCA: 視覚のみで Cross-Attention を持つ効率的なマルチモーダル LLM

パラメトリックモデリングに基づく合成データで訓練された教師あり学習モデルを用いた自動岩盤接合部経路マッピング

TeleBoost: 高忠実性、制御可能、および頑健なビデオ生成のための体系的なアライメントフレームワーク

Fine-R1: Chain-of-Thought 推論を用いたマルチモーダル LLM の微細な視覚認識における卓越性の向上

HistoMet: 一次腫瘍の組織学画像から転移進展と転移部位の親和性を予後予測するための全がん用ディープラーニングフレームワーク

AD-MIR: 構造化された推論を通じた広告ビデオ理解における認識から説得への架橋

一般目的 3D 医学セグメンテーションにおけるモダリティ不一致と一般化の幻の解明

死ピクセルから編集可能なスライドへ：視言語領域理解に基づく情報図の再構築と本質的な Google スライドへの変換

幾何形状、クラス不均衡、および配列が再構築精度に及ぼす影響——微 CT フェントムに基づく評価

内外両方で見聞きする：運転者安全評価とインテリジェント車両の意思決定のためのマルチモーダル人工知能システム

視覚と言語：自律走行車用安全評価と計画のための新表現手法と人工知能

ビデオにおけるプロセス・オブ・スローヴ (Process-of-Thought) リーゼニング