4037 articles

UniReason 1.0: 世界知識に基づく画像生成・編集のための統合された推論フレームワーク

UniReason 1.0: A Unified Reasoning Framework for World Knowledge Aligned Image Generation and Editing

arXiv:2602.02437v3 Announce Type: replace 要約：統合されたマルチモーダルモデルは、深い推論を必要とする複雑な合成タスクに直面する困難を抱えており、通常、テキストから画像の生成と画像編集を相互接続された推論ステップとしてではなく、孤立した機能として扱っています。これに対応するため、私たちは UniReason という統合フレームワークを提案し、2 つの補完...

Original: arXiv:2602.02437v3 Announce Type: replace Abstract: Unified multimodal models often struggle with complex synthesis tasks that demand deep reasoning, and typically treat text-to-image generation and ...

UniReason 1.0: 世界知識に基づく画像生成・編集のための統合された推論フレームワーク

SVD-ViT: SVD がビジョントランスフォーマーのフォーカスに前景を向けるか

手術室における自己教師ありアンカリバラウンドマルチビュー動画匿名化

DiGAN: Diffusion-Guided Attention Network for Early Alzheimer's Disease Detection

間スライス一貫性に基づく確率的性を活用した 2D Diffusion モデルによる 3D 医療画像処理の性能向上

当 LLaVA がオブジェクトと遭遇する時：ビジョン言語モデルのトークン組成

Focus-Scan-Refine: 人的視覚認識から効率的なビジュアルトークン剪定へ

Driving with DINO: 自己運転における視覚基礎特性によるシミュレーションから現実世界への統一された橋渡し

车辆運動モデルを用いたエンド・トゥ・エンド自律運転におけるウェイポイントとアクション間のギャップの解決

衛星 RGB 画像からの大規模航空 LiDAR 派生学習データとモノкуляр深度推定を用いた森林冠層高の推定

ComfyBench: ComfyUI における LLM ベームの自律的協力型 AI システム設計ベンチマーク

浅い拡散: 低次元サブ空間を活用した強力で不可視なディフュージョンモデルへのウォーターマルキング

骨筋系 MRIにおけるファウンデーションモデルの臨床的有用性：マーカーの忠実性と予後予測

潜領域モデル化による地理的シフトへの頑健性の向上

組織病理学全スライド画像における効果的かつ効率的なコンテキスト認識な核細胞検出への取り組み

エンドツーエンド自律走行における衝突リスク推定：損傷予測に基づく手法

CT スキャンにおける脳内出血分類のための Vision Transformer: 適応的なスキャンレベルの意思決定融合を実現するエントロピー認識度の模糊積分戦略を用いた

Sparse Ellipsoidal Radial Basis Function Networks による符号距離場の近似：動的なマルチ目標最適化戦略

FlashKAT：コルモゴロフ・アノルドトランスフォーマーにおける性能ボトルネックの解明と対応

Diffusion Distillation における一般化の理解：確率流距離に基づくアプローチ