4037 articles
UniReason 1.0: 世界知識に基づく画像生成・編集のための統合された推論フレームワーク
UniReason 1.0: A Unified Reasoning Framework for World Knowledge Aligned Image Generation and Editing
arXiv:2602.02437v3 Announce Type: replace 要約:統合されたマルチモーダルモデルは、深い推論を必要とする複雑な合成タスクに直面する困難を抱えており、通常、テキストから画像の生成と画像編集を相互接続された推論ステップとしてではなく、孤立した機能として扱っています。これに対応するため、私たちは UniReason という統合フレームワークを提案し、2 つの補完...
Original: arXiv:2602.02437v3 Announce Type: replace Abstract: Unified multimodal models often struggle with complex synthesis tasks that demand deep reasoning, and typically treat text-to-image generation and ...
SVD-ViT: SVD がビジョントランスフォーマーのフォーカスに前景を向けるか
SVD-ViT: Does SVD Make Vision Transformers Attend More to the Foreground?
arXiv:2602.02765v2 Announce Type: replace Abstract: ビジョントランスフォーマー(ViT)は現在、大規模な基礎モデルとして確立されています。しかし、自己注意機構はглобальным(グローバルに)作用するため、前景と背景を明確に区別する明確なメカニズムを備えていません。その結果、ViT は不要な背景特徴やアーティファクトを学習し、分類性能の低下を...
Original: arXiv:2602.02765v2 Announce Type: replace Abstract: Vision Transformers (ViT) have been established as large-scale foundation models. However, because self-attention operates globally, they lack an e...
手術室における自己教師ありアンカリバラウンドマルチビュー動画匿名化
Self-Supervised Uncalibrated Multi-View Video Anonymization in the Operating Room
arXiv:2602.02850v2 発表タイプ:置換 要約:動画データを手術室(OR)研究に利用するためのプライバシー保持は前提条件です。効果的な匿名化には個々の人物の完全な検出が不可欠であり、単一の漏れ検出でも大規模な手動修正を必要とします。しかし、既存のアプローチは以下の 2 つの重要なスケーラビリティのボトルネックに直面しています:(1) 高い精度を達成するために、新しい臨床現場ごとに手動...
Original: arXiv:2602.02850v2 Announce Type: replace Abstract: Privacy preservation is a prerequisite for using video data in Operating Room (OR) research. Effective anonymization relies on the exhaustive local...
DiGAN: Diffusion-Guided Attention Network for Early Alzheimer's Disease Detection
arXiv:2602.03881v2 Announce Type: replace 摘 要:Alzheimer's disease (AD) の早期診断は、前駆段階における構造的脳変化が微妙であり、かつ時間的に不規則に進行するため、依然として大きな課題となっています。既存のディープラーニングアプローチは、大規模な縦断データセットを必要とし、実世界の臨床データに内在する時間的な連続性とモードの不均一...
Original: arXiv:2602.03881v2 Announce Type: replace Abstract: Early diagnosis of Alzheimer's disease (AD) remains a major challenge due to the subtle and temporally irregular progression of structural brain ch...
間スライス一貫性に基づく確率的性を活用した 2D Diffusion モデルによる 3D 医療画像処理の性能向上
Improving 2D Diffusion Models for 3D Medical Imaging with Inter-Slice Consistent Stochasticity
arXiv:2602.04162v2 Announce Type: replace 要約:3D 医療画像は診断および科学研究において重要な需要を有しており、現在では Diffusion モデル(DM)の質の高いデータ事前知識を学習できる特性ゆえに、医療画像の復元において効果的なツールとなってきました。しかし、DM を用いて 3D データ分布を学習することは、データ収集の難しさに加え、モデルトレー...
Original: arXiv:2602.04162v2 Announce Type: replace Abstract: 3D medical imaging is in high demand and essential for clinical diagnosis and scientific research. Currently, diffusion models (DMs) have become an...
当 LLaVA がオブジェクトと遭遇する時:ビジョン言語モデルのトークン組成
When LLaVA Meets Objects: Token Composition for Vision-Language-Models
arXiv:2602.04864v2 発表型:更新 概要:現在の自己回帰的なビジョン言語モデル(VLM)は、画像を表現するために多くの視覚的トークンに頼っており、特に推論時にはより多くの計算リソースが必要となります。この問題に対処するため、私たちは Mask-LLaVA というフレームワークを提案しました。このフレームワークは、自己回帰的 VLM に対して、コンパクトかつ情報豊富であるための視覚表...
Original: arXiv:2602.04864v2 Announce Type: replace Abstract: Current autoregressive Vision Language Models (VLMs) usually rely on a large number of visual tokens to represent images, resulting in a need for m...
Focus-Scan-Refine: 人的視覚認識から効率的なビジュアルトークン剪定へ
Focus-Scan-Refine: From Human Visual Perception to Efficient Visual Token Pruning
arXiv:2602.05809v2 発表タイプ: 代替 要旨:視覚言語モデル(VLM)は、推論の遅延とメモリーフットプリントを大きく増大させる大量のビジュアルトークンを生成する傾向があります。トレーニング不要のトークン剪定が実用的な解決策を提供しているにもかかわらず、既存の方法は依然として、強力な圧縮下で局所的証拠と全球的なコンテキストとのバランスを取ることに苦労しています。私たちは、人間の視覚...
Original: arXiv:2602.05809v2 Announce Type: replace Abstract: Vision-language models (VLMs) often generate massive visual tokens that greatly increase inference latency and memory footprint; while training-fre...
Driving with DINO: 自己運転における視覚基礎特性によるシミュレーションから現実世界への統一された橋渡し
Driving with DINO: Vision Foundation Features as a Unified Bridge for Sim-to-Real Generation in Autonomous Driving
arXiv:2602.06159v2 発表タイプ:差し替え 要約:コントラロールブビデオ拡散の台頭により、現行の自己運転ビデオ生成 Sim2Real メソッドは、ドメインギャップを橋渡しする明示的な中間表現に依存していました。しかし、これらのモダリティは基本的な「一貫性・リアリズムジレンマ」に直面しています。低レベル信号(例:エッジ、ぼやけた画像)は正確な制御を保証しますが、合成アチファクトを「...
Original: arXiv:2602.06159v2 Announce Type: replace Abstract: Driven by the emergence of Controllable Video Diffusion, existing Sim2Real methods for autonomous driving video generation typically rely on explic...
车辆運動モデルを用いたエンド・トゥ・エンド自律運転におけるウェイポイントとアクション間のギャップの解決
Addressing the Waypoint-Action Gap in End-to-End Autonomous Driving via Vehicle Motion Models
arXiv:2602.06214v2 Announce Type: replace 要約:エンド・トゥ・エンド自律運転 (E2E-AD) システムは、出力の性質に基づいて通常 2 つのグループに分類されます:(i) 未来の経路を予測するウェイポイントベースのモデル,および (ii) ガス、ブレーキ、ステアを直接出力するアクションベースのモデル。最新のベンチマークプロトコルとトレーニングパイプライ...
Original: arXiv:2602.06214v2 Announce Type: replace Abstract: End-to-End Autonomous Driving (E2E-AD) systems are typically grouped by the nature of their outputs: (i) waypoint-based models that predict a futur...
衛星 RGB 画像からの大規模航空 LiDAR 派生学習データとモノкуляр深度推定を用いた森林冠層高の推定
Forest canopy height estimation from satellite RGB imagery using large-scale airborne LiDAR-derived training data and monocular depth estimation
arXiv:2602.06503v2 Announce Type: replace 摘要:大規模かつ高解像度の森林冠層高マッピングは、地域および全球的な炭素・水循環の理解において極めて重要な役割を果たしている。ICESat-2 や GEDI を含む衛星 LiDAR ミッションは森林構造のグローバルな観測を提供するが、空間的に疎であり、内在する不確実性の影響を受ける。一方、航空および UAV LiD...
Original: arXiv:2602.06503v2 Announce Type: replace Abstract: Large-scale, high-resolution forest canopy height mapping plays a crucial role in understanding regional and global carbon and water cycles. Spaceb...
ComfyBench: ComfyUI における LLM ベームの自律的協力型 AI システム設計ベンチマーク
ComfyBench: Benchmarking LLM-based Agents in ComfyUI for Autonomously Designing Collaborative AI Systems
arXiv:2409.01392v3 Announce Type: replace-cross Abstract: 以前のアール・イー(AI)研究の多くは、特定のタスクでのパフォーマンス向上を主な目的として、知的に最大限にするための単一構造モデルの開発に焦点を当てていました。これに対し、本作品では、LLM ベームのエージェントを用いて、協力型 AI システムを自律的に設計することを研究します。この...
Original: arXiv:2409.01392v3 Announce Type: replace-cross Abstract: Much previous AI research has focused on developing monolithic models to maximize their intelligence, with the primary goal of enhancing perf...
浅い拡散: 低次元サブ空間を活用した強力で不可視なディフュージョンモデルへのウォーターマルキング
Shallow Diffuse: Robust and Invisible Watermarking through Low-Dimensional Subspaces in Diffusion Models
arXiv:2410.21088v4 Announce Type: replace-cross 要旨: ディフュージョンモデルによる AI 生成コンテンツの広範な利用は、誤情報と著作権侵害の懸念を大きく増大させています。ウォーターマルキングは、これらの AI 生成画像を特定し、その誤用を防ぐために不可欠な技術です。本論文では、ディフュージョンモデルの出力に強力で不可視なウォーターマルキングを埋め込...
Original: arXiv:2410.21088v4 Announce Type: replace-cross Abstract: The widespread use of AI-generated content from diffusion models has raised significant concerns regarding misinformation and copyright infri...
骨筋系 MRIにおけるファウンデーションモデルの臨床的有用性:マーカーの忠実性と予後予測
Clinical utility of foundation models in musculoskeletal MRI for biomarker fidelity and predictive outcomes
arXiv:2501.13376v3 Announce Type: replace-cross 要旨:骨筋系画像診断における精密医療には、スケーラブルな計測インフラが必要である。私たちは、臨床的意思決定支援に適した標準量化マーカーに変換するためのモジュール化システムを構築しました。プロンプト可能ファウンデーションセグメンター(SAM, SAM2, MedSAM)を多様化する骨筋系データセットでフ...
Original: arXiv:2501.13376v3 Announce Type: replace-cross Abstract: Precision medicine in musculoskeletal imaging requires scalable measurement infrastructure. We developed a modular system that converts routi...
潜領域モデル化による地理的シフトへの頑健性の向上
Latent Domain Modeling Improves Robustness to Geographic Shifts
arXiv:2503.02036v3 発表型: 代替クロス 要旨: 地理的分布のシフトとは、トレーニングデータの地球上の位置の分布が、推論時に観察されるものと異なる現象を指す。この設定で標準的な経験的リスク最小化 (ERM) を適用すると、大陸や生物圏といった空間的に特定された関心のあるグループ間での不均衡な汎化につながることがある。地理的分布のシフトに対処する一般的なアプローチは、連続の座標デー...
Original: arXiv:2503.02036v3 Announce Type: replace-cross Abstract: Geographic distribution shift arises when the distribution of locations on Earth in a training dataset is different from what is seen at infe...
組織病理学全スライド画像における効果的かつ効率的なコンテキスト認識な核細胞検出への取り組み
Towards Effective and Efficient Context-aware Nucleus Detection in Histopathology Whole Slide Images
arXiv:2503.05678v2 Announce Type: replace-cross Abstract: 組織病理学全スライド画像(WSI)における核細胞検出は、多岐にわたる臨床応用において不可欠です。WSI のギガピクセルサイズは、核細胞検出にスライディングウィンドウ手法の使用を要請します。しかし、主流の方法は各スライディングウィンドウを独立して処理しており、広範な文脈情報を無視し、容...
Original: arXiv:2503.05678v2 Announce Type: replace-cross Abstract: Nucleus detection in histopathology whole slide images (WSIs) is crucial for a broad spectrum of clinical applications. The gigapixel size of...
エンドツーエンド自律走行における衝突リスク推定:損傷予測に基づく手法
Collision Risk Estimation via Loss Prediction in End-to-End Autonomous Driving
arXiv:2503.07425v2 Announce Type: replace-cross 本文書において提示されるのは、衝突リスクの推定と回避が自律走行(AD)システムの安全性において中心的な役割を果たしているという事実は、最近登場したエンドツーエンド型の AD システムが、計画軌道が他の物体に過近になることを罰するために損失を最小化することで衝突回避能力を獲得したという点です。試験段階に...
Original: arXiv:2503.07425v2 Announce Type: replace-cross Abstract: Collision risk estimation and avoidance play central roles in the safety of autonomous driving (AD) systems. Recently emerged end-to-end AD s...
CT スキャンにおける脳内出血分類のための Vision Transformer: 適応的なスキャンレベルの意思決定融合を実現するエントロピー認識度の模糊積分戦略を用いた
Vision Transformer for Intracranial Hemorrhage Classification in CT Scans Using an Entropy-Aware Fuzzy Integral Strategy for Adaptive Scan-Level Decision Fusion
arXiv:2503.08609v2 Announce Type: replace-cross Abstract: 脳内出血(ICH)は、頭蓋骨内への内部出血を引き起こす脳血管の破裂による、極めて重要な医療緊急事態です。出血サブタイプの正確かつタイムリーな分類は、効果的な臨床意思決定に不可欠です。この課題に対処するため、我々は階層的時間注意機構を有する пирамидальный Vision ...
Original: arXiv:2503.08609v2 Announce Type: replace-cross Abstract: Intracranial hemorrhage (ICH) is a critical medical emergency caused by the rupture of cerebral blood vessels, leading to internal bleeding w...
Sparse Ellipsoidal Radial Basis Function Networks による符号距離場の近似:動的なマルチ目標最適化戦略
Approximating Signed Distance Fields With Sparse Ellipsoidal Radial Basis Function Networks: A Dynamic Multi-Objective Optimization Strategy
arXiv:2505.02350v4 Announce Type: replace-cross 本稿では、暗黙曲面の符号距離関数(SDF)の正確でコンパクトな表現について考察します。SDF 値は、ポイントクラウド、三角形メッシュ、解析式、事前学習されたニューラルネットワークなどの多様なソースから得られます。与えられた空間格子点における SDF 値を用いて、暗黙曲面の幾何学的形状を維持しつつ可能な限...
Original: arXiv:2505.02350v4 Announce Type: replace-cross Abstract: Accurate and compact representation of signed distance functions (SDFs) of implicit surfaces is crucial for efficient storage, computation, a...
FlashKAT:コルモゴロフ・アノルドトランスフォーマーにおける性能ボトルネックの解明と対応
FlashKAT: Understanding and Addressing Performance Bottlenecks in the Kolmogorov-Arnold Transformer
arXiv:2505.13813v3 Announce Type: replace-cross Abstract: コルモゴロフ・アノルドネットワーク (KAN) は、多重層パーセプトロン (MLP) の代替手段として、その高い表現力と解釈可能性により人気が高まっている。しかし、KAN はトレーニング安定性の欠如と計算コストによる桁違いの遅延に悩まされ、大規模タスクへの適用が制限されている。最近、...
Original: arXiv:2505.13813v3 Announce Type: replace-cross Abstract: The Kolmogorov-Arnold Network (KAN) has been gaining popularity as an alternative to the multilayer perceptron (MLP) due to its greater expre...
Diffusion Distillation における一般化の理解:確率流距離に基づくアプローチ
Understanding Generalization in Diffusion Distillation via Probability Flow Distance
arXiv:2505.20123v2 Announce Type: replace-cross Abstract:ディフューョンディジタルテーションは、効率的な生成を持つ軽量かつ少ステップのディフューョンモデルを学習するための効果的なアプローチを提供しています。しかし、その一般化性能の評価は依然として課題が多く、理論的な指標は高次元データに対して実用的ではない一方で、一般化を厳密に測定する実用的...
Original: arXiv:2505.20123v2 Announce Type: replace-cross Abstract: Diffusion distillation provides an effective approach for learning lightweight and few-steps diffusion models with efficient generation. Howe...