4037 articles
ImageHD: ハイパースペクトル計算を用いた効率的なデバイス上継続学習の画像表現生成
ImageHD: Energy-Efficient On-Device Continual Learning of Visual Representations via Hyperdimensional Computing
arXiv:2604.21280v1 Announcement Type: new Abstract: デバイス上の継続学習(CL)は、非定常データストリームを処理するエッジ AI システムにおいて不可欠ですが、既存の多くの手法は反伝播またはサンプルに依存する分類器を利用し、計算量、メモリ量、および遅延オーバーヘッドを大幅に増大させます。ハイパースペクトル計算(HDC)は、高速で反復的なオンライン...
Original: arXiv:2604.21280v1 Announce Type: new Abstract: On-device continual learning (CL) is critical for edge AI systems operating on non-stationary data streams, but most existing methods rely on backpropa...
LatRef-Diff: 潜在空間と参照に基づく拡散モデルによる顔の属性編集とスタイル操作
LatRef-Diff: Latent and Reference-Guided Diffusion for Facial Attribute Editing and Style Manipulation
arXiv:2604.21279v1 発表タイプ:新作 要約: 顔の属性編集およびスタイル操作は、仮想アバターや写真編集などのアプリケーションにおいて不可欠です。しかし、他の特徴を変化させずに顔の属性を正確に制御することは、顔構造の複雑さや属性間の強相関のため困難です。コンディショナル GAN は進歩を遂げていますが、精度問題や学習不安定さによって制約されています。拡散モデルは有望ですが、意味方向...
Original: arXiv:2604.21279v1 Announce Type: new Abstract: Facial attribute editing and style manipulation are crucial for applications like virtual avatars and photo editing. However, achieving precise control...
UAU-Net: 不確実性感の表現学習と証拠に基づく分類による面部動作単位検出
UAU-Net: Uncertainty-aware Representation Learning and Evidential Classification for Facial Action Unit Detection
arXiv:2604.21227v1 Announce Type: new 摘要:面部動作単位(AU)検出は、表現段階と判定段階の両方において、不均質で AU 固有の不確実性が生じるため依然として難しい課題です。最近の手法は識別的特性学習を向上させましたが、多くの手法は AU 表現を決定論的とみなし、視覚ノイズ、主観依存の外見変化、および間欠的な AU 関係に伴う不確実性を考慮せず、これにより頑健...
Original: arXiv:2604.21227v1 Announce Type: new Abstract: Facial action unit (AU) detection remains challenging because it involves heterogeneous, AU-specific uncertainties arising at both the representation a...
Sparse Forcing: 本地式学習可能なスパスな注意機構を用いたリアルタイム自動回帰拡散ビデオ生成
Sparse Forcing: Native Trainable Sparse Attention for Real-time Autoregressive Diffusion Video Generation
arXiv:2604.21221v1 Announce Type: new Abstract: 自動回帰ビデオ拡散モデルにおいて、長期生成の品質向上とデコード遅延の低減を図る訓練および推論のパラジグム「Sparse Forcing」を提示します。Sparse Forcing は、自動回帰拡散ロールアウトにおける経験的事実に基づくことで:注意機構は目立つ視覚的ブロックの持続的な一部に集中し、KV キ...
Original: arXiv:2604.21221v1 Announce Type: new Abstract: We introduce Sparse Forcing, a training-and-inference paradigm for autoregressive video diffusion models that improves long-horizon generation quality ...
擬付けによるデータ拡張を活用した、水下画像データにおける密集型物体検出の向上のための確率的フレームワーク
A Probabilistic Framework for Improving Dense Object Detection in Underwater Image Data via Annealing-Based Data Augmentation
arXiv:2604.21198v1 Announce Type: new 摘要:物体検出モデルは、制御された環境で撮影された安定した照明、水の透明度、および視点を持つ画像において通常良好な性能を発揮しますが、変動が高く、不連続が頻繁である現実的な水下環境ではその性能が大幅に低下します。本稿では、これらの課題を解決するために、密集型かつ制約のない水下シーンにおける頑健性を向上させるための新しいデー...
Original: arXiv:2604.21198v1 Announce Type: new Abstract: Object detection models typically perform well on images captured in controlled environments with stable lighting, water clarity, and viewpoint, but th...
SpatiO:空間推論のために、視点と言語エージェントの適応型テスト時期オーケストレーション
SpatiO: Adaptive Test-Time Orchestration of Vision-Language Agents for Spatial Reasoning
arXiv:2604.21190v1 Announce Type: new Abstract: 視覚的なシーンの理解には、物体の識別だけでなく、それらの空間的な関係を推論する能力も必要です。一般的な視覚と言語のタスクとは異なり、空間推論は、2D 的外観信号、深度信号、幾何学的制約などの複数の帰納的バイアスを統合する必要がありますが、これらの信頼性は文脈によって変化する可能性が示唆されています。これ...
Original: arXiv:2604.21190v1 Announce Type: new Abstract: Understanding visual scenes requires not only recognizing objects but also reasoning about their spatial relationships. Unlike general vision-language ...
WildSplatter: 非構造化画像からの外観制御付きフォワード 3D ガウススプラッター
WildSplatter: Feed-forward 3D Gaussian Splatting with Appearance Control from Unconstrained Images
arXiv:2604.21182v1 Announce Type: new 摘要:我々が提案した WildSplatter は、既知のカメラパラメータを持たない非構造化画像において、外観制御機能を持つフォワード 3D ガウススプラッター(3DGS)モデルです。3DGS は高品質なリアルタイムレンダリングを可能にする効果的なシーンの表現手法ですが、通常は一致した照明下で撮影されたマルチビュー画像を用...
Original: arXiv:2604.21182v1 Announce Type: new Abstract: We propose WildSplatter, a feed-forward 3D Gaussian Splatting (3DGS) model for unconstrained images with unknown camera parameters and varying lighting...
3D 理解の強化:点基盤 VLM における幾何学的報酬の Creditable 割り当てによる解決策
Reinforcing 3D Understanding in Point-VLMs via Geometric Reward Credit Assignment
arXiv:2604.21160v1 Announce Type: new Abstract: Point-Vision-Language モデルは、エボイドメントしたエージェントに実行可能な空間推理を付与することを目指していますが、予測される 3D 構造が観測された 2D 現実と矛盾する幾何学的幻覚に陥るケースが頻繁にあります。本研究では、この失敗の主な原因を表現のボトルネックではなく、少数の幾...
Original: arXiv:2604.21160v1 Announce Type: new Abstract: Point-Vision-Language Models promise to empower embodied agents with executable spatial reasoning, yet they frequently succumb to geometric hallucinati...
WFM: 超高速度多モード MRI 合成のための 3D ウェーブレットフローマッチング
WFM: 3D Wavelet Flow Matching for Ultrafast Multi-Modal MRI Synthesis
arXiv:2604.21146v1 発表タイプ:new 要約:拡散モデルは多モード MRI 合成において驚異的な品質を達成しましたが、その計算コスト(数百回のサンプリングステップと各モード専用の別モデル)は臨床導入を制限しています。私たちは、この非効率性が不要な出発点に起因することを観察しました:拡散モデルは純粋なノイズから始め、すでに利用可能な MRI シーケンスに含まれている構造情報を棄却し...
Original: arXiv:2604.21146v1 Announce Type: new Abstract: Diffusion models have achieved remarkable quality in multi-modal MRI synthesis, but their computational cost (hundreds of sampling steps and separate m...
HyperFM: 分光グループ化を活用した効率的なハイスペクトルファウンデーションモデル
HyperFM: An Efficient Hyperspectral Foundation Model with Spectral Grouping
arXiv:2604.21127v1 Announce Type: new Abstract: NASA の PACE ミッションは、海洋色、エアロゾル、および雲の未曾有のハイスペクトル観測を提供し、これらの成分が地球の気候や大気質量にどのような影響を与えるかについての新たな洞察をもたらしています。Ocean Color Instrument は数百個の細かな波長帯を覆う光を測定しており、浮遊植物...
Original: arXiv:2604.21127v1 Announce Type: new Abstract: The NASA PACE mission provides unprecedented hyperspectral observations of ocean color, aerosols, and clouds, offering new insights into how these comp...
Materialistic RIR: マテリアルコンディショニングされたリアリティある RIR 生成
Materialistic RIR: Material Conditioned Realistic RIR Generation
arXiv:2604.21119v1 Announce Type: new Abstract: 「金の響き、木の打ち音!」私たちは環境で聞こえる音が、空間的なレイアウトだけでなく、その内にある物体や表面の素材によって形成されていることを知っています。例えば、木造の壁がある部屋と、同じ空間的レイアウトを持ちながらコンクリートの壁がある部屋は、異なる音響体験を生み出します。これらの効果を正確にモデル...
Original: arXiv:2604.21119v1 Announce Type: new Abstract: Rings like gold, thuds like wood! The sound we hear in a scene is shaped not only by the spatial layout of the environment but also by the materials of...
どこで事前学習するか?事前学習データの多様性がジオ空間的な基礎モデルの性能に与える影響を調べる
Pretrain Where? Investigating How Pretraining Data Diversity Impacts Geospatial Foundation Model Performance
arXiv:2604.21104v1 発表タイプ:新規 要約:新しいジオ空間的基礎モデルは、異なるデータ多様性の概念を用いてサンプリングされた新しいモデルアーキテクチャと事前学習データセットを導入している。性能差は主にモデルアーキテクチャや入力モダリティに起因すると見なされるが、事前学習データセットの役割はあまり研究されていない。この研究ギャップに対応するため、事前学習データにおける地理的組成が...
Original: arXiv:2604.21104v1 Announce Type: new Abstract: New geospatial foundation models introduce a new model architecture and pretraining dataset, often sampled using different notions of data diversity. P...
ストリートビュー画像から建築物および住宅の特性評価を実現するマルチモーダル LLM の活用
Leveraging Multimodal LLMs for Built Environment and Housing Attribute Assessment from Street-View Imagery
arXiv:2604.21102v1 Announce Type: new 摘要:本稿では、大規模言語モデル(LLM)と Google Street View(GSV)画像を活用することで、米国内を網羅的に自動的に建築状態を評価する新しいフレームワークを提案します。Gemma 3 27B モデルを小規模な人間によるラベル付けデータでファインチューニングすることで、我々のアプローチは人間による主観...
Original: arXiv:2604.21102v1 Announce Type: new Abstract: We present a novel framework for automatically evaluating building conditions nationwide in the United States by leveraging large language models (LLMs...
Foveated Reasoning: 多様視覚注意を備えた言語 - 視覚モデルのための状態付きアクションベースの視覚的焦点制御
Foveated Reasoning: Stateful, Action-based Visual Focusing for Vision-Language Models
arXiv:2604.21079v1 Announce Type: new アブストラクト:視覚言語モデルは高解像度の画像から恩恵を受けますが、視覚トークン数の増加は高い計算負荷を引き起こします。人類はこの緊張関係を、粗い視点で「どこを見るべきか」を導き、選択的に収集した高解像度証拠によって「何を考えるべきか」を精緻化する、フォベーテーションというメカニズムを通じて解決しています。当論文では、フォ...
Original: arXiv:2604.21079v1 Announce Type: new Abstract: Vision-language models benefit from high-resolution images, but the increase in visual-token count incurs high compute overhead. Humans resolve this te...
単一観測を用いた拡散過程事前分布の最適化
Optimizing Diffusion Priors with a Single Observation
arXiv:2604.21066v1 発表タイプ:新規 抜粋:拡散事前分布は、多数の逆問題において高品質の後方サンプルを生成しますが、多くの場合、限られたトレーニングセットや純粋にシミュレーションされたデータでトレーニングされており、これらの下流ソースの誤差とバイアスを継承します。現在の拡散モデル的微調整アプローチは、多くのアプリケーションで収集が困難な大量の観測値と変化する前向演算子を必要とし、...
Original: arXiv:2604.21066v1 Announce Type: new Abstract: While diffusion priors generate high-quality posterior samples across many inverse problems, they are often trained on limited training sets or purely ...
臨床情報に基づく小児脳腫瘍の解像度全体スライド画像からの変調モデル
Clinically-Informed Modeling for Pediatric Brain Tumor Classification from Whole-Slide Histopathology Images
arXiv:2604.21060v1 発表タイプ: 新しい 摘要: 解像度全体スライド画像(WSI)を用いた小児脳腫瘍の分類において、深層学習は組織病理学に基づいた正確な診断を達成する際に、深刻なデータ不足、クラス不均衡、および診断的に異なるサブタイプ間で微細な形態論的重叠といったユニークな課題に直面しています。病理学の基礎モデルはパッチレベルの表現学習を前進させましたが、限られたデータ条件下で弱...
Original: arXiv:2604.21060v1 Announce Type: new Abstract: Accurate diagnosis of pediatric brain tumors, starting with histopathology, presents unique challenges for deep learning, including severe data scarcit...
StyleVAR: 視覚的自己回帰モデルによるコントロール可能な画像スタイル転移
StyleVAR: Controllable Image Style Transfer via Visual Autoregressive Modeling
arXiv:2604.21052v1 Announce Type: new Abstract: 私たちは Visual Autoregressive Modeling (VAR) フレームワークに基づき、スタイル転移を学習された潜在空間における条件付けされた離散シークエンスモデル化として形式化了。画像はマルチスケール表現に分解され、VQ-VAE によって離散コードへトークン化される。その後、トラン...
Original: arXiv:2604.21052v1 Announce Type: new Abstract: We build on the Visual Autoregressive Modeling (VAR) framework and formulate style transfer as conditional discrete sequence modeling in a learned late...
テキスト・トゥ・イメージ拡散モデルにおける射影勾配忘却:概念再生攻撃への防御
Projected Gradient Unlearning for Text-to-Image Diffusion Models: Defending Against Concept Revival Attacks
arXiv:2604.21041v1 Announce Type: new Abstract: テキスト・トゥ・イメージ拡散モデルにおける機械的忘却は、事前学習済みモデルから望ましくない概念を選択的に除去し、高価な再学習を伴わないことを目的とする。現在の忘却方法は共通の欠陥を持っており、モデルをダウンストリームデータで微調整(ファインチューニング)すると、消去された概念が再出現してしまう。これは、...
Original: arXiv:2604.21041v1 Announce Type: new Abstract: Machine unlearning for text-to-image diffusion models aims to selectively remove undesirable concepts from pre-trained models without costly retraining...
ガイダンスと Chain-of-Thought 推論を用いたマルチモーダルモデルにおけるマルチスペクトルデータの unlocked
Unlocking Multi-Spectral Data for Multi-Modal Models with Guided Inputs and Chain-of-Thought Reasoning
arXiv:2604.21032v1 Announce Type: new 要約:マルチスペクトル画像は、土地利用・被ば類分類や環境監視などのリモートセンシング応用において価値のある入力シグナルです。しかし、汎用的な大型マルチモーダルモデル(LMM)は通常 RGB 画像を用いて訓練されるため、RGB 領域に限定されがちです。同時に、マルチスペクトル用マルチモーダルモデルを訓練するのは高価であり、ユ...
Original: arXiv:2604.21032v1 Announce Type: new Abstract: Multi-spectral imagery is a valuable input signal for Remote Sensing applications, such as land-use and land-cover classification and environmental mon...
Micro-DualNet: 微動作認識のためのデュアルパス空間時間ネットワーク
Micro-DualNet: Dual-Path Spatio-Temporal Network for Micro-Action Recognition
arXiv:2604.21011v1 発表タイプ:new 摘要: 微動作(Micro-actions)とは、掻き頭や手指のタップなど、1〜3秒という極めて短時間で局所的に発生する繊細な動きを指します。この種の繊細な動作は社会的コミュニケーションや自然なインタラクションに不可欠であり、詳細な映像理解(fine-grained video understanding)にとって極めて重要ですが、現在のコ...
Original: arXiv:2604.21011v1 Announce Type: new Abstract: Micro-actions are subtle, localized movements lasting 1-3 seconds such as scratching one's head or tapping fingers. Such subtle actions are essential f...