12673 articles
Visual Prompt-Agnostic Evolution
arXiv:2601.20232v2 Announce Type: replace Abstract: Visual Prompt Tuning (VPT) は、各レイヤーのトークンシーケンスに可学習プロンプトトークンを読み込むことで、固定されたビジョントランスフォーマー(ViT)をダウンストリームタスクに適応させます。しかし、我々は既存の VPT バージョンが不安定な学習ダイナミクス、特に勾配...
Original: arXiv:2601.20232v2 Announce Type: replace Abstract: Visual Prompt Tuning (VPT) adapts a frozen Vision Transformer (ViT) to downstream tasks by inserting a small number of learnable prompt tokens into...
CAF-Mamba: 多式分解圧症検出のための Mamba ベースクロスモーダル適応的注意融合
CAF-Mamba: Mamba-Based Cross-Modal Adaptive Attention Fusion for Multimodal Depression Detection
論文: arXiv:2601.21648v2 発表タイプ: 置換 要約: 多式分解抑郁症是一种普遍的心理健康疾病,严重损害日常功能和生活质量。虽然近期的抑郁症检测深度学习方案显示出了希望,但大多数方案依赖于有限类型的功能,忽略了明确的跨模态交互,并且对于融合采用了简单的拼接或静态权重。为了解决这些局限性,我们提出了 CAF-Mamba,这是一种新颖的基于 Mamba 的跨模态自适应注意力融合框架。...
Original: arXiv:2601.21648v2 Announce Type: replace Abstract: Depression is a prevalent mental health disorder that severely impairs daily functioning and quality of life. While recent deep learning approaches...
Q-Hawkeye: 画像品質評価のための信頼性のある視覚政策最適化
Q-Hawkeye: Reliable Visual Policy Optimization for Image Quality Assessment
arXiv:2601.22920v2 Announce Type: replace 摘要:画像品質評価 (IQA) は、人間の判断と一貫する知覚品質スコアを予測します。最近の MLLM(多モーダル大規模言語モデル)に基づいた RL ベースの IQA 手法は、視覚品質の説明とスコアの生成に焦点を当てていますが、以下の 2 つの主要な信頼性限界を無視しています:(i) モデルの予測安定性はトレーニング...
Original: arXiv:2601.22920v2 Announce Type: replace Abstract: Image Quality Assessment (IQA) predicts perceptual quality scores consistent with human judgments. Recent RL-based IQA methods built on MLLMs focus...
LatentLens: LLM において高度に解釈可能な視覚トークンを明らかにする
LatentLens: Revealing Highly Interpretable Visual Tokens in LLMs
arXiv:2602.00462v2 Announce Type: replace 要約: 大規模言語モデル (LLM) を視覚言語モデル (VLM) へと変換するためには、視化エンコーダーからの視覚トークンを LLM の埋め込み空間に変換する必要がある。興味深いことに、この変換は浅い MLP 変換さえ行うだけでも十分である。LLM が視覚トークンをどのように容易に処理できるのかを理解するためには...
Original: arXiv:2602.00462v2 Announce Type: replace Abstract: Transforming a large language model (LLM) into a Vision-Language Model (VLM) can be achieved by mapping the visual tokens from a vision encoder int...
Moonworks Lunara Aesthetic II: 文脈整合性に関する画像バリエーションデータの紹介
Moonworks Lunara Aesthetic II: An Image Variation Dataset
arXiv:2602.01666v3 発表タイプ:代替 要約:当研究では、現代の画像生成・編集システムの文脈整合性の制御された評価と学習を支援するために設計され、公開され、倫理的に収集された画像データセットである「Lunara Aesthetic II」を紹介します。このデータセットは、Moonworks によるオリジナルアートおよび写真から抽出された 2,854 組のアンカー連結バリエーションペ...
Original: arXiv:2602.01666v3 Announce Type: replace Abstract: We introduce Lunara Aesthetic II, a publicly released, ethically sourced image dataset designed to support controlled evaluation and learning of co...
ReasonEdit: 人間による推論を用いた視覚・言語モデルの編集
ReasonEdit: Editing Vision-Language Models using Human Reasoning
arXiv:2602.02408v3 Announce Type: replace 要旨:モデル編集は、関連しない動作を変えずに、大規模事前学習モデルの誤りを修正することを目的としています。最近のいくつかの研究で視覚・言語モデル(VLMs)が編集されていますが、既存の編集者は、人間とモデルが画像を論理づける必要がある通常の大規模な推論重たいタックを扱っていません。したがって、我々は、ユーザーが編集...
Original: arXiv:2602.02408v3 Announce Type: replace Abstract: Model editing aims to correct errors in large, pretrained models without altering unrelated behaviors. While some recent works have edited vision-l...
UniReason 1.0: 世界知識に基づく画像生成・編集のための統合された推論フレームワーク
UniReason 1.0: A Unified Reasoning Framework for World Knowledge Aligned Image Generation and Editing
arXiv:2602.02437v3 Announce Type: replace 要約:統合されたマルチモーダルモデルは、深い推論を必要とする複雑な合成タスクに直面する困難を抱えており、通常、テキストから画像の生成と画像編集を相互接続された推論ステップとしてではなく、孤立した機能として扱っています。これに対応するため、私たちは UniReason という統合フレームワークを提案し、2 つの補完...
Original: arXiv:2602.02437v3 Announce Type: replace Abstract: Unified multimodal models often struggle with complex synthesis tasks that demand deep reasoning, and typically treat text-to-image generation and ...
SVD-ViT: SVD がビジョントランスフォーマーのフォーカスに前景を向けるか
SVD-ViT: Does SVD Make Vision Transformers Attend More to the Foreground?
arXiv:2602.02765v2 Announce Type: replace Abstract: ビジョントランスフォーマー(ViT)は現在、大規模な基礎モデルとして確立されています。しかし、自己注意機構はглобальным(グローバルに)作用するため、前景と背景を明確に区別する明確なメカニズムを備えていません。その結果、ViT は不要な背景特徴やアーティファクトを学習し、分類性能の低下を...
Original: arXiv:2602.02765v2 Announce Type: replace Abstract: Vision Transformers (ViT) have been established as large-scale foundation models. However, because self-attention operates globally, they lack an e...
手術室における自己教師ありアンカリバラウンドマルチビュー動画匿名化
Self-Supervised Uncalibrated Multi-View Video Anonymization in the Operating Room
arXiv:2602.02850v2 発表タイプ:置換 要約:動画データを手術室(OR)研究に利用するためのプライバシー保持は前提条件です。効果的な匿名化には個々の人物の完全な検出が不可欠であり、単一の漏れ検出でも大規模な手動修正を必要とします。しかし、既存のアプローチは以下の 2 つの重要なスケーラビリティのボトルネックに直面しています:(1) 高い精度を達成するために、新しい臨床現場ごとに手動...
Original: arXiv:2602.02850v2 Announce Type: replace Abstract: Privacy preservation is a prerequisite for using video data in Operating Room (OR) research. Effective anonymization relies on the exhaustive local...
DiGAN: Diffusion-Guided Attention Network for Early Alzheimer's Disease Detection
arXiv:2602.03881v2 Announce Type: replace 摘 要:Alzheimer's disease (AD) の早期診断は、前駆段階における構造的脳変化が微妙であり、かつ時間的に不規則に進行するため、依然として大きな課題となっています。既存のディープラーニングアプローチは、大規模な縦断データセットを必要とし、実世界の臨床データに内在する時間的な連続性とモードの不均一...
Original: arXiv:2602.03881v2 Announce Type: replace Abstract: Early diagnosis of Alzheimer's disease (AD) remains a major challenge due to the subtle and temporally irregular progression of structural brain ch...
間スライス一貫性に基づく確率的性を活用した 2D Diffusion モデルによる 3D 医療画像処理の性能向上
Improving 2D Diffusion Models for 3D Medical Imaging with Inter-Slice Consistent Stochasticity
arXiv:2602.04162v2 Announce Type: replace 要約:3D 医療画像は診断および科学研究において重要な需要を有しており、現在では Diffusion モデル(DM)の質の高いデータ事前知識を学習できる特性ゆえに、医療画像の復元において効果的なツールとなってきました。しかし、DM を用いて 3D データ分布を学習することは、データ収集の難しさに加え、モデルトレー...
Original: arXiv:2602.04162v2 Announce Type: replace Abstract: 3D medical imaging is in high demand and essential for clinical diagnosis and scientific research. Currently, diffusion models (DMs) have become an...
当 LLaVA がオブジェクトと遭遇する時:ビジョン言語モデルのトークン組成
When LLaVA Meets Objects: Token Composition for Vision-Language-Models
arXiv:2602.04864v2 発表型:更新 概要:現在の自己回帰的なビジョン言語モデル(VLM)は、画像を表現するために多くの視覚的トークンに頼っており、特に推論時にはより多くの計算リソースが必要となります。この問題に対処するため、私たちは Mask-LLaVA というフレームワークを提案しました。このフレームワークは、自己回帰的 VLM に対して、コンパクトかつ情報豊富であるための視覚表...
Original: arXiv:2602.04864v2 Announce Type: replace Abstract: Current autoregressive Vision Language Models (VLMs) usually rely on a large number of visual tokens to represent images, resulting in a need for m...
Focus-Scan-Refine: 人的視覚認識から効率的なビジュアルトークン剪定へ
Focus-Scan-Refine: From Human Visual Perception to Efficient Visual Token Pruning
arXiv:2602.05809v2 発表タイプ: 代替 要旨:視覚言語モデル(VLM)は、推論の遅延とメモリーフットプリントを大きく増大させる大量のビジュアルトークンを生成する傾向があります。トレーニング不要のトークン剪定が実用的な解決策を提供しているにもかかわらず、既存の方法は依然として、強力な圧縮下で局所的証拠と全球的なコンテキストとのバランスを取ることに苦労しています。私たちは、人間の視覚...
Original: arXiv:2602.05809v2 Announce Type: replace Abstract: Vision-language models (VLMs) often generate massive visual tokens that greatly increase inference latency and memory footprint; while training-fre...
Driving with DINO: 自己運転における視覚基礎特性によるシミュレーションから現実世界への統一された橋渡し
Driving with DINO: Vision Foundation Features as a Unified Bridge for Sim-to-Real Generation in Autonomous Driving
arXiv:2602.06159v2 発表タイプ:差し替え 要約:コントラロールブビデオ拡散の台頭により、現行の自己運転ビデオ生成 Sim2Real メソッドは、ドメインギャップを橋渡しする明示的な中間表現に依存していました。しかし、これらのモダリティは基本的な「一貫性・リアリズムジレンマ」に直面しています。低レベル信号(例:エッジ、ぼやけた画像)は正確な制御を保証しますが、合成アチファクトを「...
Original: arXiv:2602.06159v2 Announce Type: replace Abstract: Driven by the emergence of Controllable Video Diffusion, existing Sim2Real methods for autonomous driving video generation typically rely on explic...
车辆運動モデルを用いたエンド・トゥ・エンド自律運転におけるウェイポイントとアクション間のギャップの解決
Addressing the Waypoint-Action Gap in End-to-End Autonomous Driving via Vehicle Motion Models
arXiv:2602.06214v2 Announce Type: replace 要約:エンド・トゥ・エンド自律運転 (E2E-AD) システムは、出力の性質に基づいて通常 2 つのグループに分類されます:(i) 未来の経路を予測するウェイポイントベースのモデル,および (ii) ガス、ブレーキ、ステアを直接出力するアクションベースのモデル。最新のベンチマークプロトコルとトレーニングパイプライ...
Original: arXiv:2602.06214v2 Announce Type: replace Abstract: End-to-End Autonomous Driving (E2E-AD) systems are typically grouped by the nature of their outputs: (i) waypoint-based models that predict a futur...
衛星 RGB 画像からの大規模航空 LiDAR 派生学習データとモノкуляр深度推定を用いた森林冠層高の推定
Forest canopy height estimation from satellite RGB imagery using large-scale airborne LiDAR-derived training data and monocular depth estimation
arXiv:2602.06503v2 Announce Type: replace 摘要:大規模かつ高解像度の森林冠層高マッピングは、地域および全球的な炭素・水循環の理解において極めて重要な役割を果たしている。ICESat-2 や GEDI を含む衛星 LiDAR ミッションは森林構造のグローバルな観測を提供するが、空間的に疎であり、内在する不確実性の影響を受ける。一方、航空および UAV LiD...
Original: arXiv:2602.06503v2 Announce Type: replace Abstract: Large-scale, high-resolution forest canopy height mapping plays a crucial role in understanding regional and global carbon and water cycles. Spaceb...
ComfyBench: ComfyUI における LLM ベームの自律的協力型 AI システム設計ベンチマーク
ComfyBench: Benchmarking LLM-based Agents in ComfyUI for Autonomously Designing Collaborative AI Systems
arXiv:2409.01392v3 Announce Type: replace-cross Abstract: 以前のアール・イー(AI)研究の多くは、特定のタスクでのパフォーマンス向上を主な目的として、知的に最大限にするための単一構造モデルの開発に焦点を当てていました。これに対し、本作品では、LLM ベームのエージェントを用いて、協力型 AI システムを自律的に設計することを研究します。この...
Original: arXiv:2409.01392v3 Announce Type: replace-cross Abstract: Much previous AI research has focused on developing monolithic models to maximize their intelligence, with the primary goal of enhancing perf...
浅い拡散: 低次元サブ空間を活用した強力で不可視なディフュージョンモデルへのウォーターマルキング
Shallow Diffuse: Robust and Invisible Watermarking through Low-Dimensional Subspaces in Diffusion Models
arXiv:2410.21088v4 Announce Type: replace-cross 要旨: ディフュージョンモデルによる AI 生成コンテンツの広範な利用は、誤情報と著作権侵害の懸念を大きく増大させています。ウォーターマルキングは、これらの AI 生成画像を特定し、その誤用を防ぐために不可欠な技術です。本論文では、ディフュージョンモデルの出力に強力で不可視なウォーターマルキングを埋め込...
Original: arXiv:2410.21088v4 Announce Type: replace-cross Abstract: The widespread use of AI-generated content from diffusion models has raised significant concerns regarding misinformation and copyright infri...
骨筋系 MRIにおけるファウンデーションモデルの臨床的有用性:マーカーの忠実性と予後予測
Clinical utility of foundation models in musculoskeletal MRI for biomarker fidelity and predictive outcomes
arXiv:2501.13376v3 Announce Type: replace-cross 要旨:骨筋系画像診断における精密医療には、スケーラブルな計測インフラが必要である。私たちは、臨床的意思決定支援に適した標準量化マーカーに変換するためのモジュール化システムを構築しました。プロンプト可能ファウンデーションセグメンター(SAM, SAM2, MedSAM)を多様化する骨筋系データセットでフ...
Original: arXiv:2501.13376v3 Announce Type: replace-cross Abstract: Precision medicine in musculoskeletal imaging requires scalable measurement infrastructure. We developed a modular system that converts routi...
潜領域モデル化による地理的シフトへの頑健性の向上
Latent Domain Modeling Improves Robustness to Geographic Shifts
arXiv:2503.02036v3 発表型: 代替クロス 要旨: 地理的分布のシフトとは、トレーニングデータの地球上の位置の分布が、推論時に観察されるものと異なる現象を指す。この設定で標準的な経験的リスク最小化 (ERM) を適用すると、大陸や生物圏といった空間的に特定された関心のあるグループ間での不均衡な汎化につながることがある。地理的分布のシフトに対処する一般的なアプローチは、連続の座標デー...
Original: arXiv:2503.02036v3 Announce Type: replace-cross Abstract: Geographic distribution shift arises when the distribution of locations on Earth in a training dataset is different from what is seen at infe...