4037 articles
From Image to Music Language: A Two-Stage Structure Decoding Approach for Complex Polyphonic OMR
arXiv:2604.20522v2 Announce Type: replace-cross Abstract: We propose a new approach for a practical two-stage Optical Music Recognition (OMR) pipeline, with a particular focus on its second stage. Giv...
Original: arXiv:2604.20522v2 Announce Type: replace-cross Abstract: We propose a new approach for a practical two-stage Optical Music Recognition (OMR) pipeline, with a particular focus on its second stage. Gi...
MM-JudgeBias: MLLM による裁判官としての構成バイアスの評価のためのベンチマーク
MM-JudgeBias: A Benchmark for Evaluating Compositional Biases in MLLM-as-a-Judge
arXiv:2604.18164v3 Announce Type: replace-cross 要旨:マルチモーダル大規模言語モデル(MLLM)は、自動評価者としての「MLLM-as-a-Judge」というパラダイムでますます広く使われています。しかし、その信頼性とバイアスに対する脆弱性に関する研究は依然として不十分な状態です。本研究では、多くの MLLM 裁判官が重要な視覚的またはテキスト的な...
Original: arXiv:2604.18164v3 Announce Type: replace-cross Abstract: Multimodal Large Language Models (MLLMs) have been increasingly used as automatic evaluators-a paradigm known as MLLM-as-a-Judge. However, th...
Video-Robin: 意味に即した動画から音楽の生成のための再帰的拡散プランニング
Video-Robin: Autoregressive Diffusion Planning for Intent-Grounded Video-to-Music Generation
arXiv:2604.17656v2 発表型:代替クロス 要約: 動画から音楽へ (V2M) の生成は、入力動画の背景音楽を作成する基本的なタスクです。最近の V2M モデルは、一般的にビジュアル条件化に頼ることで視覚的整合性を達成し、エンドユーザーには限られたセマンティックおよびスタイルの制御性を提供しています。本稿では、動画コンテンツに意味に即した音楽生成を可能にする高速かつ高品質なモデルで...
Original: arXiv:2604.17656v2 Announce Type: replace-cross Abstract: Video-to-music (V2M) is the fundamental task of creating background music for an input video. Recent V2M models achieve audiovisual alignment...
Adaptive Moments が Plug-and-Play Diffusion Sampling に驚くほど効果的である
Adaptive Moments are Surprisingly Effective for Plug-and-Play Diffusion Sampling
arXiv:2603.16797v2 Announce Type: replace-cross 要約:導向拡散サンプリングは、しばしば計算不可解である可能性スコアを近似するものであり、これがサンプリングダイナミクスに大きなノイズを伴うようにする。我々は、これらのノイズした可能性スコアをサンプリング中に安定させるために、適応モーメント推定を使用することを提案する。我々のアプローチは単純だが、画像修...
Original: arXiv:2603.16797v2 Announce Type: replace-cross Abstract: Guided diffusion sampling relies on approximating often intractable likelihood scores, which introduces significant noise into the sampling d...
商品化ラップトップの組み込み Wi-Fi ハードウェアのみを用いた範囲フィルタリングドップラースペクトルによる有人検出
Human Presence Detection via Wi-Fi Range-Filtered Doppler Spectrum on Commodity Laptops
arXiv:2603.10845v3 Announce Type: replace-cross 摘要:有人検出 (HPD) は、日常的なデバイスにおけるインテリジェントな電力管理およびセキュリティ機能を有効に実現するために重要です。本稿では、第 1 の HPD ソリューションとして、外部デバイス、アクセスポイント、または追加センサーの不要な単一観測型 Wi-Fi センシングを活用し、機器の組み込み...
Original: arXiv:2603.10845v3 Announce Type: replace-cross Abstract: Human Presence Detection (HPD) is key to enable intelligent power management and security features in everyday devices. In this paper we prop...
ロボティックマニピュレーション政策の動作空間設計を解明する
Demystifying Action Space Design for Robotic Manipulation Policies
arXiv:2602.23408v2 Announce Type: replace-cross 要旨:動作空間の指定は、真似に基づくロボティックマニピュレーション政策学習において決定的な役割を果たし、政策学習の最適化景観を根本的に形成します。最近のアバンティスは、トレーニングデータの規模拡大とモデル能力に注力してきましたが、動作空間の選択は依然として即適的な直感やレガシー設計によって指導されており...
Original: arXiv:2602.23408v2 Announce Type: replace-cross Abstract: The specification of the action space plays a pivotal role in imitation-based robotic manipulation policy learning, fundamentally shaping the...
AgentDoG: AI エージェントの安全性とセキュリティに向けた診断ガールレフレームワーク
AgentDoG: A Diagnostic Guardrail Framework for AI Agent Safety and Security
arXiv:2601.18491v2 Announce Type: replace-cross Abstract: AI エージェントの台頭により、自律的なツール使用と環境との相互作用から生じる複雑な安全性とセキュリティ上の課題が出現しました。現在のガールレモデルは、エージェンティックリスク意識やリスク診断の透明性を欠いています。複雑かつ多数のリスク行動をカバーするエージェンティックガールレを導入...
Original: arXiv:2601.18491v2 Announce Type: replace-cross Abstract: The rise of AI agents introduces complex safety and security challenges arising from autonomous tool use and environmental interactions. Curr...
気管支腫瘍固定された深層特徴ランダムフォレストを用いた肺がんセグメンテーションにおける分布外検出
Tumor-anchored deep feature random forests for out-of-distribution detection in lung cancer segmentation
arXiv:2512.08216v3 Announce Type: replace-cross **摘要:** 3D computed tomography (CT) スキャンからの肺腫瘍の正確なセグメンテーションは、自動治療計画および反応評価において不可欠である。自己教師あり事前学習を多数のデータセットで行ったにもかかわらず、最先端のトランスフォーマーバックボーンは、分布外 (OOD) 入力を...
Original: arXiv:2512.08216v3 Announce Type: replace-cross Abstract: Accurate segmentation of lung tumors from 3D computed tomography (CT) scans is essential for automated treatment planning and response assess...
TimePre: 確率的時間系列予報において精度、効率性、安定性の架け橋
TimePre: Bridging Accuracy, Efficiency, and Stability in Probabilistic Time-Series Forecasting
arXiv:2511.18539v2 Announce Type: replace-cross 要約: 我々は、確率的時間系列予報 (PTSF) の文脈において、多重選択学習 (MCL) の分布の柔軟性と、多層パーセプトロン (MLP) に基づくモデルの効率性を統合する単純なフレームワークである TimePre を提案します。TimePre の核心である安定化されたインスタンス正規化 (SIN) ...
Original: arXiv:2511.18539v2 Announce Type: replace-cross Abstract: We propose TimePre, a simple framework that unifies the efficiency of Multilayer Perceptron (MLP)-based models with the distributional flexib...
分布間拡散事前量に駆動的反復再構築:画数減少型 CT 用スプラースビュー問題への対応
Cross-Distribution Diffusion Priors-Driven Iterative Reconstruction for Sparse-View CT
arXiv:2509.13576v2 Announce Type: replace-cross 本文書では、Scalable Interpolant Transformer(SiT)から導出された、Cross-Distribution Diffusion Priors-Driven Iterative Reconstruction(CDPIR)と呼ばれるフレームワークを紹介する。CDPIR は、...
Original: arXiv:2509.13576v2 Announce Type: replace-cross Abstract: Sparse-View CT (SVCT) reconstruction enhances temporal resolution and reduces radiation dose, yet its clinical use is hindered by artifacts d...
モデル融合による効率的なマルチソース知識継承
Efficient Multi-Source Knowledge Transfer by Model Merging
arXiv:2508.19353v2 発表タイプ:cross-replace 要旨:転移学習は効果的な戦略であるが、オンライン上で利用可能な多数のモデルから知識を活用する機会を見過ごす傾向がある。このマルチソース転移学習の問題に対処することは、適応性を向上させ再訓練コストを削減する有望な道筋となる。ただし、既存の手法は本質的に粗粒度であり、微細粒度の知識抽出に必要な精度や、多数のソースモデル、ある...
Original: arXiv:2508.19353v2 Announce Type: replace-cross Abstract: While transfer learning is an effective strategy, it often overlooks the opportunity to leverage knowledge from numerous available models onl...
Faker なのか本当なのか、ロボットが判断できるのか?単眼視覚ロボティクスにおける VLM のドメインシフトに対する頑丈性の評価
Fake or Real, Can Robots Tell? Evaluating VLM Robustness to Domain Shift in Single-View Robotic Scene Understanding
arXiv:2506.19579v3 Announce Type: replace-cross 要約: 視覚言語モデル(VLM)が環境を自然言語で記述するために、ロボティクスにおけるシーン認識が徐々に依存するようになってきています。本研究では、腕が操作するロボットマニピュレータによって撮影された机の上のシーンに対する単眼物体キャプションを体系的に評価し、実際の世界的な道具と、形状としては類似するが...
Original: arXiv:2506.19579v3 Announce Type: replace-cross Abstract: Robotic scene understanding increasingly relies on Vision-Language Models (VLMs) to generate natural language descriptions of the environment...
Model-Agnostic Self-Decompression による大規模言語モデルでの知識保持:Tree Generation (TG)
Preserving Knowledge in Large Language Model with Model-Agnostic Self-Decompression
arXiv:2406.11354v3 Announce Type: replace-cross 要約:人間は新しい情報を学びながら旧い知識を保持することができますが、ドメイン固有データへの後訓練 (post-pretrained) または教師あり微調整 (SFT) を行うと、大規模言語モデル (LLMs) は頻繁に大規模な忘却 (catastrophic forgetting) を経験します。さら...
Original: arXiv:2406.11354v3 Announce Type: replace-cross Abstract: Humans can retain old knowledge while learning new information, but Large Language Models (LLMs) often suffer from catastrophic forgetting wh...
Render-in-the-Loop: 可視自己フィードバックによるベクター図形の生成
Render-in-the-Loop: Vector Graphics Generation via Visual Self-Feedback
arXiv:2604.20730v2 Announce Type: replace 摘要:マルチモーダル大規模言語モデル(MLLMs)は、直接コード合成を通じてスケーラブルなベクター図形(SVG)の生成において有望な能力を示しています。しかし、既存のパラダイムは、モデルが中間的な視覚的結果を認識することなく記号的なコード列を生成するオープンループの「盲目的な描画」アプローチを採用する傾向にあります...
Original: arXiv:2604.20730v2 Announce Type: replace Abstract: Multimodal Large Language Models (MLLMs) have shown promising capabilities in generating Scalable Vector Graphics (SVG) via direct code synthesis. ...
RefAerial: 航空写真における指示検出のためのベンチマークとアプローチ
RefAerial: A Benchmark and Approach for Referring Detection in Aerial Images
arXiv:2604.20543v2 Announce Type: replace 要約: Referring detection(指示検出)は、自然言語によって参照された対象を検出するという課題であり、近年急速に研究関心を集めている。しかし、既存のデータセットは、オブジェクトが小規模な風景の中心に配置された地上写主に限定されている。本論文では、航空写真における指示検出用の大規模かつ挑戦的なデー...
Original: arXiv:2604.20543v2 Announce Type: replace Abstract: Referring detection refers to locate the target referred by natural languages, which has recently attracted growing research interests. However, ex...
Fourier Series Coder: オリエテッド・オブジェクト検出における角度境界的不連続性問題に対する新しい視点
Fourier Series Coder: A Novel Perspective on Angle Boundary Discontinuity Problem for Oriented Object Detection
arXiv:2604.20281v2 発表型: 置換 【要約】 知能運転および遠隔計測技術の急速な進展に伴い、角度付きオブジェクト検出への関心が高まっています。しかし、高精度な性能を達成することは、周期的境界付近で顕著な角度揺動を引き起こす角度境界的不連続性(ABD)と循環的不明確性(CA)という問題によって本質的に制限されています。近年、これらの問題を緩和するために連続型角度エンコーダーの提案...
Original: arXiv:2604.20281v2 Announce Type: replace Abstract: With the rapid advancement of intelligent driving and remote sensing, oriented object detection has gained widespread attention. However, achieving...
Semantic-Fast-SAM:精度を損なわずリアルタイム性能を実現する効率的なセマンティックセグメンター
Semantic-Fast-SAM: Efficient Semantic Segmenter
arXiv:2604.20169v2 Announce Type: replace Abstract: SFS(Semantic-Fast-SAM)は、Fast Segment Anything モデル(FastSAM)とセマンティックラベリングパイプラインを組み合わせ、精度を犠牲にしつつリアルタイム性能を発揮するセマンティックセグメンテーション・フレームワークを提案します。FastSAM は、...
Original: arXiv:2604.20169v2 Announce Type: replace Abstract: We propose Semantic-Fast-SAM (SFS), a semantic segmentation framework that combines the Fast Segment Anything model with a semantic labeling pipeli...
CrackForward: 文脈感知な深刻性段階クラック合成によるデータ拡張
CrackForward: Context-Aware Severity Stage Crack Synthesis for Data Augmentation
arXiv:2604.19941v2 Announce Type: replace Abstract: 構造物の健全性監視において、信頼性の高いクラック検出・分割は不可欠ですが、良好なアノテーション付けられたデータの不足は主要な課題です。この課題に対処するために、我々は、データ拡張のために現実的なクラック成長パターンを合成するための、新しい文脈感知な生成フレームワークを提案します。既存の方法が主に...
Original: arXiv:2604.19941v2 Announce Type: replace Abstract: Reliable crack detection and segmentation are vital for structural health monitoring, yet the scarcity of well-annotated data constitutes a major c...
PC2Model: 3D ポイントクラウドからのモデル登録に対する ISPRS ベンチマーク
PC2Model: ISPRS benchmark on 3D point cloud to model registration
arXiv:2604.19596v2 発表型: 置換 要旨: ポイントクラウドの登録とは、もう一つのカセット(ポイントクラウド)または 3 次元(3D)モデルと一致させるプロセスで、マルチモーダルデータを統一的な表現に統合することを可能にします。これは、建設監視、自律運転、ロボット工学、およびバーチャルリアリティ(VR)または拡張現実(AR)などのアプリケーションにおいて不可欠です。ポイントクラウ...
Original: arXiv:2604.19596v2 Announce Type: replace Abstract: Point cloud registration involves aligning one point cloud with another or with a three-dimensional (3D) model, enabling the integration of multimo...
E3VS-Bench: 3D スプラットリングシーンにおける視座依存型アクティブな知覚のためのベンチマーク
E3VS-Bench: A Benchmark for Viewpoint-Dependent Active Perception in 3D Gaussian Splatting Scenes
arXiv:2604.17969v2 発表タイプ:差し替え 要旨:3D エンバイロンメントにおけるビジュアルサーチでは、エンボディメントエージェントが周囲を探索し、タスクに関連する証拠を取得する必要があります。しかし、既存のビジュアルサーチおよびエンボディメント AI ベンチマーク(EQA 等)は、通常、静的な観察または制限された第一人称視点運動に依存しており、現実の 3D エンバイロンメントにお...
Original: arXiv:2604.17969v2 Announce Type: replace Abstract: Visual search in 3D environments requires embodied agents to actively explore their surroundings and acquire task-relevant evidence. However, exist...