4037 articles
ViPS: Video-informed Pose Spaces for Auto-Rigged Meshes
arXiv:2604.17623v2 Announce Type: replace 摘要:クイネマティックなリグは 3D メッシュを関節で表現するための構造化されたインターフェースを提供しますが、特定のアセットに対応する plausible マニホールの関節配置を内在的に表すことはできません。このようなポーズスペースがない場合、確率的サンプリングや手動でのリグパラメータ操作は、解剖学的な超伸展や非...
Original: arXiv:2604.17623v2 Announce Type: replace Abstract: Kinematic rigs provide a structured interface for articulating 3D meshes, but they lack an inherent representation of the plausible manifold of joi...
疼痛の認識のための脳活動から軽量トランスフォーマー
A Lightweight Transformer for Pain Recognition from Brain Activity
arXiv:2604.16491v2 Announce Type: replace Abstract: 疼痛は多面的で広範囲に及ぶ現象であり、その臨床的・社会的負担は甚大であるため、信頼性の高い自動評価は重要な課題である。本稿では、複数の fNIRS(機能近赤外分光計法)表現を統一的なトークン化メカニズムを通じて融合させる軽量トランスフォーマーアーキテクチャを提案する。このアプローチは、補完的な信...
Original: arXiv:2604.16491v2 Announce Type: replace Abstract: Pain is a multifaceted and widespread phenomenon with substantial clinical and societal burden, making reliable automated assessment a critical obj...
StreamMeCo: リアルタイムビデオ理解のための効率的なエージェント記憶圧縮
StreamMeCo: Long-Term Agent Memory Compression for Efficient Streaming Video Understanding
arXiv:2604.09000v2 Announce Type: replace Abstract: ビジョンエージェントの記憶は、ストリーミングビデオの理解において顕著な効果を発揮していますが、このような記憶を記録すると、ストレージと計算の両方で大きなオーバーヘッドが発生し、コストが高くなります。この課題に対処するために、StreamMeCo、すなわち効率的なストリーミングエージェント記憶圧...
Original: arXiv:2604.09000v2 Announce Type: replace Abstract: Vision agent memory has shown remarkable effectiveness in streaming video understanding. However, storing such memory for videos incurs substantial...
ImVideoEdit: 2D 空間差分注意ブロックを介した画像学習型動画編集
ImVideoEdit: Image-learning Video Editing via 2D Spatial Difference Attention Blocks
arXiv:2604.07958v2 発表タイプ:置き換え 要約:既存の動画編集モデルは高コストなペア付き動画データに依存しており、実用的な拡張性の制限があります。本質的に、ほとんどの動画編集タスクは、事前学習済みモデルの時間的ダイナミクスを維持しつつ空間的内容を選択的かつ精密に修正する、解耦された時空間プロセスとして形式化できます。この洞察に基づき、画像ペアのみから完全に動画編集能力を学習する効...
Original: arXiv:2604.07958v2 Announce Type: replace Abstract: Current video editing models often rely on expensive paired video data, which limits their practical scalability. In essence, most video editing ta...
RailVQA: 自動運転列車運転における効率的な解釈可能な視覚知覚のためのベンチマークとフレームワーク
RailVQA: A Benchmark and Framework for Efficient Interpretable Visual Cognition in Automatic Train Operation
arXiv:2603.27112v2 Announce Type: replace 要約: 自動運転列車運転 (ATO) が GoA4 以上へと進展するにつれて、複雑かつ動的な鉄路環境において安全な運行を保証するために、効率的で信頼性の高い運転席視覚感知と意思決定指向の推論に依存度が高まっています。しかし、既存のアプローチは基本的な感知にのみ焦点を当てており、稀だが安全性に重要な端緒ケースには汎用...
Original: arXiv:2603.27112v2 Announce Type: replace Abstract: As Automatic Train Operation (ATO) advances toward GoA4 and beyond, it increasingly depends on efficient, reliable cab-view visual perception and d...
SGG-R$^{ m 3}$:トークン予測から始まる、エンド・エンドでバイアスなしのシーングラフ生成へ
SGG-R$^{\rm 3}$: From Next-Token Prediction to End-to-End Unbiased Scene Graph Generation
arXiv:2603.07961v3 Announce Type: replace Abstract: シーングラフ生成(SGG)は、視覚的なシーンをオブジェクトとその関係性のグラフとして構造化します。多モード大規模言語モデル(MLLM)によるエンド・エンド SGG が進歩したものの、現在の手法はタスク固有の構造化された推論の欠如、そして疎かつ長尾分布の関係性の分布課題によって制限されており、低...
Original: arXiv:2603.07961v3 Announce Type: replace Abstract: Scene Graph Generation (SGG) structures visual scenes as graphs of objects and their relations. While Multimodal Large Language Models (MLLMs) have...
MaskDiME: 正確で効率的な可視的な反事象説明のための適応的マスク拡散モデル
MaskDiME: Adaptive Masked Diffusion for Precise and Efficient Visual Counterfactual Explanations
arXiv:2602.18792v3 Announce Type: replace Abstract: 可視的な反事象説明は、モデルの予測を反転させるための最小限の構文変更を明らかにし、深層学習への因果的な、かつ解釈可能な洞察を提供することを目的としている。しかし、既存の拡散ベースの反事象生成手法は、一般的に計算コストが高く、サンプリングに遅く、修正された領域を局所的に正確に特定できないという課題...
Original: arXiv:2602.18792v3 Announce Type: replace Abstract: Visual counterfactual explanations aim to reveal the minimal semantic modifications that can alter a model's prediction, providing causal and inter...
DAVIS: 主要アクティベーションと分散を介した OOD 検出における分離性の向上
DAVIS: OOD Detection via Dominant Activations and Variance for Increased Separation
arXiv:2601.22703v2 発表 タイプ:置換 要約:分布外(OOD)入力検出は、機械学習モデルを実世界に展開するための重要な保護手段です。しかし、多くの事後検出手法は、グローバル平均プーリング(GAP)から導き出される最終層前の機能表現に基づいています。GAP は、アクティベーションマップから分布統計量を失くすという損失のある操作であり、重要な統計量が無視されています。我々は、これらの...
Original: arXiv:2601.22703v2 Announce Type: replace Abstract: Detecting out-of-distribution (OOD) inputs is a critical safeguard for deploying machine learning models in the real world. However, most post-hoc ...
低コスト・高効率:ワイナリー環境における LiDAR 位置認識と Matryoshka 表現学習
Low Cost, High Efficiency: LiDAR Place Recognition in Vineyards with Matryoshka Representation Learning
arXiv:2601.18714v2 発表タイプ:置換 要約:農業環境におけるロケーション化は、非構造化な性質と特徴的なランドマークの欠如により困難です。物体分類やセグメンテーションの文脈では農業環境が研究されていますが、現在の最先端技術において移動ロボットの場所認識タスクは依然として容易ではありません。本研究では、事前処理および Matryoshka 表現学習のマルチ損失アプローチにより、ワイナ...
Original: arXiv:2601.18714v2 Announce Type: replace Abstract: Localization in agricultural environments is challenging due to their unstructured nature and lack of distinctive landmarks. Although agricultural ...
監督学習の欠如を架橋するもの:遠隔センシング変化検知のための統一的な枠組み
Bridging Supervision Gaps: A Unified Framework for Remote Sensing Change Detection
arXiv:2601.17747v2 Announce Type: replace 要旨:変化検知 (CD) は、多時相遠隔センシング画像から地表の変化を同定することを目的とします。現実のシナリオでは、ピクセルレベルの変化ラベルを取得することは高コストであり、既存のモデルは多様なラベル利用可能性のあるシナリオに適応する際に困難を経験します。この課題に対処するため、私たちは統一的な変化検知枠組み (...
Original: arXiv:2601.17747v2 Announce Type: replace Abstract: Change detection (CD) aims to identify surface changes from multi-temporal remote sensing imagery. In real-world scenarios, Pixel-level change labe...
ATATA: One Algorithm to Align Them All
arXiv:2601.11194v2 Announce Type: replace Abstract: We propose a novel multi-modal algorithm for the joint inference of paired structurally aligned samples using Rectified Flow models. Although some e...
Original: arXiv:2601.11194v2 Announce Type: replace Abstract: We suggest a new multi-modal algorithm for joint inference of paired structurally aligned samples with Rectified Flow models. While some existing m...
何が言及されていないか?多モーダルニュースプレビューにおける誤解を誘う省略の検出と修正
What's Left Unsaid? Detecting and Correcting Misleading Omissions in Multimodal News Previews
arXiv:2601.05563v3 Announce Type: replace 摘要:事実に即している場合でも、SNS のニュースプレビュー(画像と見出しのペア)は、重要な文脈を選択的に省略することで解釈のズレを誘発し、読者に全文が支持するものと異なる判断を形成させます。この陰謀的な害は明示的な誤情報よりも繊細ですが、まだ十分に研究されていません。このギャップを埋めるために、私たちはプレビュー...
Original: arXiv:2601.05563v3 Announce Type: replace Abstract: Even when factually correct, social-media news previews (image-headline pairs) can induce interpretation drift: by selectively omitting crucial con...
GeCo:動画生成における幾何学的整合性の評価(運動と構造に基づく)
GeCo: Evaluating Geometric Consistency for Video Generation via Motion and Structure
arXiv:2512.22274v2 Announce Type: replace Abstract: 私たちは、静的なシーンにおける幾何学的変形と不整合(構造的整合性が維持されていない)アーティファクトを同時検出するための幾何学的に裏付けられた指標、GeCo を提案します。余剰運動と深さの事前知識を融合させることで、GeCo はこれらのアーティファクトを明らかにする解釈可能で高解像度の整合性マッ...
Original: arXiv:2512.22274v2 Announce Type: replace Abstract: We introduce GeCo, a geometry-grounded metric for jointly detecting geometric deformation and occlusion-inconsistency artifacts in static scenes. B...
UbiQVision: 画像認識における XAI における不確実性の定量
UbiQVision: Quantifying Uncertainty in XAI for Image Recognition
arXiv:2512.20288v2 Announce Type: replace 要約:近年のディープラーニングの進歩は、医療画像解析を含む多様な分野におけるその広範な採用につながりました。この進展は、ResNets、Vision Transformers、混合型畳み込みニューラルネットワークなど、パフォーマンス向上をもたらす一方で複雑性を伴った高度に進化したモデルアーキテクチャによって推進さ...
Original: arXiv:2512.20288v2 Announce Type: replace Abstract: Recent advances in deep learning have led to its widespread adoption across diverse domains, including medical imaging. This progress is driven by ...
Schearogram の自動アンノテーションが低負荷の欠陥検出を可能にする
Automated Annotation of Shearographic Measurements Enabling Weakly Supervised Defect Detection
arXiv:2512.06171v2 Announce Type: replace 要旨: Schearography は表面変位勾配に敏感性のある干渉計測技術であり、安全に重要な部品の下部欠陥を検出する高い感度を提供します。産業応用における主要な制限は、手動ラベル付けが残存する手作業性の高さ、主観性、そして標準化の困難さによる高品質なアノテートデータの欠如にあります。私たちは、Grounded ...
Original: arXiv:2512.06171v2 Announce Type: replace Abstract: Shearography is an interferometric technique sensitive to surface displacement gradients, providing high sensitivity for detecting subsurface defec...
PAT3D:物理学補強型テキストによる 3D スシーン生成
PAT3D: Physics-Augmented Text-to-3D Scene Generation
arXiv:2511.21978v2 Announce Type: replace 要約:当社は、視言語モデルと物理学に基づくシミュレーションを統合し、物理的に合理的かつ、シミュレーション用および交差のない 3D スシーンを生み出す最初の物理学補強型テキストによる 3D スシーン生成フレームワーク「PAT3D」を発表します。テキストプロンプトを指定すると、PAT3D は 3D オブジェクトを生成し...
Original: arXiv:2511.21978v2 Announce Type: replace Abstract: We introduce PAT3D, the first physics-augmented text-to-3D scene generation framework that integrates vision-language models with physics-based sim...
LRDUN: Low-Rank Deep Unfolding Network による効率的なスペクトル圧縮撮像
LRDUN: A Low-Rank Deep Unfolding Network for Efficient Spectral Compressive Imaging
arXiv:2511.18513v2 Announce Type: replace Abstract: Deep Unfolding Networks (DUN) は驚くべき成果を達し、スペクトル圧縮撮像 (SCI) 再構成のパラダイムの主流となりました。既存の DUN は、フル HSI 撮像モデルから派生しており、各段階が高次元の HSI に直接操作し、単一の 2D コードされた測定に基づき全デ...
Original: arXiv:2511.18513v2 Announce Type: replace Abstract: Deep unfolding networks (DUNs) have achieved remarkable success and become the mainstream paradigm for spectral compressive imaging (SCI) reconstru...
SatSAM2: 衛星画像における運動制約付きビデオオブジェクトトラッキングへの提示可能な SAM2 とカルマン事前情報の利用
SatSAM2: Motion-Constrained Video Object Tracking in Satellite Imagery using Promptable SAM2 and Kalman Priors
arXiv:2511.18264v3 告知タイプ:置換 サマリー:既存の衛星ビデオトラッキング方法では、汎用性が不足しており、満足できる性能を達成するにはシナリオ固有のトレーニングが必要であり、隠蔽の発生時にトラッキング損失に陥る傾向があります。これらの課題に対処するため、SatSAM2(ゼロショット衛星ビデオトラッカー)を提案します。SatSAM2 は SAM2 に構築されており、基礎モデルを...
Original: arXiv:2511.18264v3 Announce Type: replace Abstract: Existing satellite video tracking methods often struggle with generalization, requiring scenario-specific training to achieve satisfactory performa...
VVS: 部分検証スキップによる視覚自己回帰生成の推測推論加速度化
VVS: Accelerating Speculative Decoding for Visual Autoregressive Generation via Partial Verification Skipping
arXiv:2511.13587v2 発表 タイプ:置換 要旨: 視覚的自己回帰(AR)生成モデルは画像生成において強い潜在力を示しており、しかしその次トークン予測パラダイムは大幅な推論遅延をもたらします。仮説推論(Speculative Decoding:SD)は視覚 AR モデルの加速度化において有効であることが証明されましたが、「ドラフト 1 ステップ、その後検証 1 ステップ」というパラ...
Original: arXiv:2511.13587v2 Announce Type: replace Abstract: Visual autoregressive (AR) generation models have demonstrated strong potential for image generation, yet their next-token-prediction paradigm intr...
SurgViVQA: 外科場面理解のための時系列に根差した動画質問応答
SurgViVQA: Temporally-Grounded Video Question Answering for Surgical Scene Understanding
arXiv:2511.03325v3 発表 タイプ: 置換 要旨:外科領域における動画質問応答(VideoQA)は、AI モデルを時系列に整合したイベントに対して論理的推論することにより、術中の理解を向上させることを目指しています。現在のアプローチは静的な画像特徴に限定されており、利用可能なデータセットでは時系列の注釈が不足しており、正確な手順解釈に不可欠なダイナミクスを無視しています。われわれ...
Original: arXiv:2511.03325v3 Announce Type: replace Abstract: Video Question Answering (VideoQA) in the surgical domain aims to enhance intraoperative understanding by enabling AI models to reason over tempora...