4037 articles
WristMIR: 小児尺骨腕 X 線画像の放射学レポート駆動型粗細両層領域感知検索
WristMIR: Coarse-to-Fine Region-Aware Retrieval of Pediatric Wrist Radiographs with Radiology Report-Driven Learning
類似的骨折パターンを持つ腕の X 線画像を検出することは、臨床的に重要な手がかりが微妙であり、非常に局所化され、また重なっている解剖学的構造や変化する撮影角度によってしばしば隠蔽されているため困難です。さらに、ケースベースの医学画像検索用の大規模で高品質に注釈付けされたデータの希少さは、進歩を制限しています。当稿では、密度の高い放射学レポートと骨領域固有の局所化を活用し、手動画像レベルの注釈なしで...
Original: arXiv:2602.07872v1 Announce Type: new Abstract: Retrieving wrist radiographs with analogous fracture patterns is challenging because clinically important cues are subtle, highly localized and often o...
インターネット動画からの弱监督による 3D 幾何学基礎モデルのスケーラブルな適応
Scalable Adaptation of 3D Geometric Foundation Models via Weak Supervision from Internet Video
arXiv:2602.07891v1 Announce Type: new Abstract: 幾何学基礎モデルは 3D 復元における有望な候補を示していますが、その進展は多様で大規模な 3D 注釈の不足によって著しく制限されています。インターネット動画はほぼ無限の原データを提供しますが、地上真幾何学の欠如と観測ノイズの存在ゆえに、これを幾何学学習のスケーリングソースとして利用するのは困難です。こ...
Original: arXiv:2602.07891v1 Announce Type: new Abstract: Geometric foundation models show promise in 3D reconstruction, yet their progress is severely constrained by the scarcity of diverse, large-scale 3D an...
多言語・音声模型における実用的かつ効率的な量化カライブラートの見直し
Rethinking Practical and Efficient Quantization Calibration for Vision-Language Models
arXiv:2602.07899v1 Announce Type: new 要旨: 後訓練量化(PTQ)は、微調整を伴わずに大規模言語モデルをデプロイする主要なアプローチであり、PTQ における量化性能はカライブラートに強く影響を受けます。これに対し、多言語・音声模型(VLM)では、視覚トークンとテキストトークンの活性化分布や量化誤差への感受性の間に著しい差が存在し、PTQ 期間中の有効なカライブ...
Original: arXiv:2602.07899v1 Announce Type: new Abstract: Post-training quantization (PTQ) is a primary approach for deploying large language models without fine-tuning, and the quantized performance is often ...
VLM はどのプライバシー属性について合意し、どのように正確に予測するか
Which private attributes do VLMs agree on and predict well?
arXiv:2602.07931v1 Announce Type: new Abstract: 視覚言語モデル(VLM)は、画像内の視覚的属性を検出するためのゼロショット検出に広く使用されています。ここでは、オープンソースの VLM をプライバシー関連属性の認識に向けたゼロショット評価を提示します。VLM が強い合意を示す属性を特定し、人間と VLM の注釈における不一致のケースについても議論しま...
Original: arXiv:2602.07931v1 Announce Type: new Abstract: Visual Language Models (VLMs) are often used for zero-shot detection of visual attributes in the image. We present a zero-shot evaluation of open-sourc...
Specialized Agent Motion Prediction と Generic Agent Motion Prediction を Dynamic Occupancy Grid Maps で統合する
Integrating Specialized and Generic Agent Motion Prediction with Dynamic Occupancy Grid Maps
arXiv:2602.07938v1 Announce Type: new Abstract: センサーデータの不確実性、エージェントの複雑な振る舞い、および複数の実現可能な未来の存在により、運転シーンの正確な予測は挑ましい課題です。現在の Occupancy Grid Map を用いた予測手法は、主にエージェンチアガノスティックなシーン予測に焦点を当てており、一方、エージェンチスペシフィックな...
Original: arXiv:2602.07938v1 Announce Type: new Abstract: Accurate prediction of driving scene is a challenging task due to uncertainty in sensor data, the complex behaviors of agents, and the possibility of m...
シーン適応のための密度ガイダンスを活用したワンショットの人物数推計
One-Shot Crowd Counting With Density Guidance For Scene Adaptaion
arXiv:2602.07955v1 Announce Type: new 要旨:カメラによって撮影された多人数のシーンには、場所によって大きな違いがあり、既存の多人数モデルは未見の監視シーンへの汎化に制限がある。モデルの汎化性能を向上させるために、私たちは異なる監視シーンを異なるカテゴリーのシーンと見なし、少人数学習を導入して、与えられた例示カテゴリーシーンの未見監視シーンにモデルを適応させ...
Original: arXiv:2602.07955v1 Announce Type: new Abstract: Crowd scenes captured by cameras at different locations vary greatly, and existing crowd models have limited generalization for unseen surveillance sce...
D-ORCA: 会話中心の最適化による頑健な音声視覚キャプション生成
D-ORCA: Dialogue-Centric Optimization for Robust Audio-Visual Captioning
arXiv:2602.07960v1 発表タイプ:新規 要旨:話された対話_video_は情報源の主要なものであるため、誰が何をいつ発言したかを正確に特定することは、ディープ・ビデオ・アンダースタンディングに不可欠である。当社は、 extbf{d}ialogue-centric(会話中心の) extbf{o}mni-modal(オムニモーダルな)大規模言語モデルである D-ORCA を紹介する。D...
Original: arXiv:2602.07960v1 Announce Type: new Abstract: Spoken dialogue is a primary source of information in videos; therefore, accurately identifying who spoke what and when is essential for deep video und...
EasyTune: 拡散ベースの動き生成のための効率的なステップ認知微調整
EasyTune: Efficient Step-Aware Fine-Tuning for Diffusion-Based Motion Generation
arXiv:2602.07967v1 発表タイプ:新 要旨:近年、動き生成モデルは著しい進歩を遂げたにもかかわらず、下流タスクとの整合性という課題を抱えています。最近の研究は、拡散モデルの好みを直接的に合わせるために微分可能な報酬を使用することで有望な結果をもたらすことを示しています。しかし、これらの手法は (1) 非効率的で粗い粒度の最適化と (2) 高いメモリ消費に苦しんでいます。本稿では、我...
Original: arXiv:2602.07967v1 Announce Type: new Abstract: In recent years, motion generative models have undergone significant advancement, yet pose challenges in aligning with downstream objectives. Recent st...
FSP-Diff: フルスペクトル事前情報向上型二領域ラテン拡散による超低線量スペクトル CT 再構成
FSP-Diff: Full-Spectrum Prior-Enhanced DualDomain Latent Diffusion for Ultra-Low-Dose Spectral CT Reconstruction
arXiv:2602.07979v1 発表 タイプ:新 要旨:光子数検出器を用いたスペクトル計算トモグラフィ(CT)は、物質の区別と組織の特性化において大きな可能性を秘めています。しかし、超低線量条件下では、エネルギー固有の投影における信号対雑音比(SNR)が著しく低下し、再構成画像に強いアーティファクトが生じ、構造的な詳細が失われます。これを解決するため、フルスペクトル事前情報向上型二領域ラテ...
Original: arXiv:2602.07979v1 Announce Type: new Abstract: Spectral computed tomography (CT) with photon-counting detectors holds immense potential for material discrimination and tissue characterization. Howev...
ニューラル先验を用いた連続性を導くシナergティックな拡散:超スパースビュー CBCT 再構成のための新たなアプローチ
Continuity-driven Synergistic Diffusion with Neural Priors for Ultra-Sparse-View CBCT Reconstruction
圆锥形ビームコンピュータ断層撮影 (CBCT) の臨床応用は、放射線被曝量と画像品質間の内在的なトレードオフに制限されています。被曝量を低減するために行われる超スパースな角度サンプリングは、重度的な欠落サンプリングアーティファクトおよびスライス間の不一致を生じ、診断信頼性を損なうことになります。既存の再構成手法は、角度的連続性と空間詳細忠実性のバランスを取るのに困難を伴います。これらの課題に対処す...
Original: arXiv:2602.07980v1 Announce Type: new Abstract: The clinical application of cone-beam computed tomography (CBCT) is constrained by the inherent trade-off between radiation exposure and image quality....
ディープフェイク合成と検出:不均衡な対決
Deepfake Synthesis vs. Detection: An Uneven Contest
arXiv:2602.07986v1 発表タイプ:new 要旨:ディープフェイク技術の急速な進歩により、合成メディアの実在性が高く、アクセスしやすくなっています。拡散モデルやニューラルレイドースフィールド(NeRF)などの新興手法、ならびに従来の生成対抗ネットワーク(GAN)の改良が、ディープフェイクビデオの洗練された生成に寄与しています。同時に、ディープフェイク検出法も、トランスフォーマーアーキ...
Original: arXiv:2602.07986v1 Announce Type: new Abstract: The rapid advancement of deepfake technology has significantly elevated the realism and accessibility of synthetic media. Emerging techniques, such as ...
MCIE:空間ガイダンスに裏付けられたマルチモーダル LLM 駆動の複雑な指示に基づく画像編集
MCIE: Multimodal LLM-Driven Complex Instruction Image Editing with Spatial Guidance
arXiv:2602.07993v1 発表タイプ:新 要約:近年、指示に基づいた画像編集の進歩は目覚ましいものがある。しかし、既存の方法はまだ比較的単純な編集操作に限られており、複雑で構成的な指示を必要とする現実世界の適用を妨げている。本研究では、アーキテクチャ設計、データ、評価プロトコルという観点からこれらの課題に対処する。具体的には、現在のモデルにおける 2 つの主要な課題を特定した:指示遵...
Original: arXiv:2602.07993v1 Announce Type: new Abstract: Recent advances in instruction-based image editing have shown remarkable progress. However, existing methods remain limited to relatively simple editin...
ForecastOcc:視覚ベースのセマンティックオキュパンス予報
ForecastOcc: Vision-based Semantic Occupancy Forecasting
arXiv:2602.08006v1 Announce Type: new Abstract: 自律運転では、時間経過に伴う幾何学とセマンティクスの両方を予報する必要があるため、未来の環境状態について効果的に推論することが可能です。既存の視覚ベースのオキュパンス予報手法は、静的物体や動的物体などの運動関連カテゴリに焦点を当てていますが、セマンティック情報はほとんど欠如しています。最近のセマンティ...
Original: arXiv:2602.08006v1 Announce Type: new Abstract: Autonomous driving requires forecasting both geometry and semantics over time to effectively reason about future environment states. Existing vision-ba...
PhysDrape:明示力と衝突制約による物理的に実質な衣服の褶創学習
PhysDrape: Learning Explicit Forces and Collision Constraints for Physically Realistic Garment Draping
arXiv:2602.08020v1 発表タイプ:新しい 要旨:ディープラーニングに基づく衣服褶創は、従来の物理基盤シミュレーション(PBS)に比べて有望な代替手段として台頭しましたが、頑健な衝突処理が依然として主要なボトルネックとなっています。既存の多くの方法は、物理的妥当性をソフトペナルティによって強制しており、幾何学的実現可能性と物理的な妥当性との間で本質的なトレードオフを生み出しています:...
Original: arXiv:2602.08020v1 Announce Type: new Abstract: Deep learning-based garment draping has emerged as a promising alternative to traditional Physics-Based Simulation (PBS), yet robust collision handling...
FlashVID: Training-free Tree-based Spatiotemporal Token Merging による効率的な動画大規模言語モデル
FlashVID: Efficient Video Large Language Models via Training-free Tree-based Spatiotemporal Token Merging
arXiv:2602.08024v1 Announce Type: new 本文書は、ビデオ大規模言語モデル(VLLMs)の抽象説明文です。VLLMs は動画理解の能力を顕著に示しましたが、高量の大規模視覚トークンを処理する必要があるため、大規模な計算効率低下が発生しています。既存の VLLMs 加速フレームワークは、空間的なおよび時間的な冗長性を独立して圧縮し、これにより時空間関係を無視し、最適...
Original: arXiv:2602.08024v1 Announce Type: new Abstract: Although Video Large Language Models (VLLMs) have shown remarkable capabilities in video understanding, they are required to process high volumes of vi...
MIND: World モデルにおける記憶一貫性およびアクション制御のベンチマーク
MIND: Benchmarking Memory Consistency and Action Control in World Models
arXiv:2602.08025v1 Announce Type: new 要約:世界モデルは動的な視覚環境を理解し、記憶し、予測することを目的としていますが、それらの基礎的能力を評価するための統一されたベンチマークは依然として不足しています。このギャップを埋めるために、私たちが導入した MIND は、世界モデルの記憶の一貫性とアクション制御を評価するための、最初のオープンドメインクローズループリ...
Original: arXiv:2602.08025v1 Announce Type: new Abstract: World models aim to understand, remember, and predict dynamic visual environments, yet a unified benchmark for evaluating their fundamental abilities r...
增強型混合 3D 生成敵対ネットワーク:3D オブジェクトの補完と生成
Enhanced Mixture 3D CGAN for Completion and Generation of 3D Objects
arXiv:2602.08046v1 発表タイプ:新 要約:3D オブジェクトの生成と補完は、コンピュータビジョンにおいて転換的な課題を表しています。生成敵対ネットワーク(GANs)は、最近、現実的な視覚データ合成において強力な潜在的力を示しました。しかし、彼らは複雑かつ多様なデータ分布を捉えることに困難を覚えていることがあり、特に不完全な入力や大幅な欠損領域を伴うシナリオにおいてはより顕著で...
Original: arXiv:2602.08046v1 Announce Type: new Abstract: The generation and completion of 3D objects represent a transformative challenge in computer vision. Generative Adversarial Networks (GANs) have recent...
Vanilla Group Equivariant Vision Transformer: Simple and Effective
arXiv:2602.08047v1 Announce Type: new Abstract: 対称性の事前知識をインдукティブバイアスとして取り入れることで対等なビジョントランスフォーマー(ViT)を設計するアプローチは、性能向上の有望な道筋となってきました。しかし、既存の対等な ViT は、ViT 内の多様なモジュール—特にパッチ埋め込みと自己注意機構の調和—において、性能と対等性のバランス...
Original: arXiv:2602.08047v1 Announce Type: new Abstract: Incorporating symmetry priors as inductive biases to design equivariant Vision Transformers (ViTs) has emerged as a promising avenue for enhancing thei...
Weak to Strong: VLM ベースの仮ラベル付けをマルチモーダルビデオに基づく隠れ感情理解タスクにおける軽微な监督学習戦略として
Weak to Strong: VLM-Based Pseudo-Labeling as a Weakly Supervised Training Strategy in Multimodal Video-based Hidden Emotion Understanding Tasks
arXiv:2602.08057v1 発表タイプ:新しい 摘要: 本論文は、ビデオにおける「隠れた感情」の自動認識に課題を解決するために、マルチモーダルな軽微监督フランクワークを提案し、iMiGUE テニスインタビューデータセットで最良の成績を達成しました。まず、YOLO 11x が人間のポートレートをフレームごとに検出・切り出し、DINOv2-Base が切り出された領域から視覚的特徴を抽出しま...
Original: arXiv:2602.08057v1 Announce Type: new Abstract: To tackle the automatic recognition of "concealed emotions" in videos, this paper proposes a multimodal weak-supervision framework and achieves state-o...
Picasso: 物理制約付きサンプリングを用いた包括的なシーン再構築
Picasso: Holistic Scene Reconstruction with Physics-Constrained Sampling
arXiv:2602.08058v1 Announce Type: new Abstract: 遮蔽や測定ノイズが存在する環境において、センサーデータに適合する幾何学的に正確なシーン再構築は依然として物理的に誤っている可能性がある。例えば、シーンの物体の姿勢と形状を推定し、それらをシミュレーターに取り込む際、小さな誤差は物体の相互貫入や不安定な平衡状態を含む不合理な構成として現れる。これにより、...
Original: arXiv:2602.08058v1 Announce Type: new Abstract: In the presence of occlusions and measurement noise, geometrically accurate scene reconstructions -- which fit the sensor data -- can still be physical...