4037 articles
LiDARの視点から:陸上点雲分割のための特徴量拡張と不確実性情報に基づく注釈パイプライン
Through the Perspective of LiDAR: A Feature-Enriched and Uncertainty-Aware Annotation Pipeline for Terrestrial Point Cloud Segmentation
arXiv:2510.06582v3 Announce Type: replace Abstract: 陸上レーザースキャニング(TLS)点雲の正確なセマンティック分割は、高価な手動注釈によって制限されています。我々は、球面投影、特徴量拡張、アンサンブル学習、そして標的注釈を統合し、ラベリングの労力を削減しつつ高い精度を維持する、半自動化の不確実性情報に基づくパイプラインを提案します。我々のアプロ...
Original: arXiv:2510.06582v3 Announce Type: replace Abstract: Accurate semantic segmentation of terrestrial laser scanning (TLS) point clouds is limited by costly manual annotation. We propose a semi-automated...
MARC: 大規模 LLM を活用したメモリ拡張強化学習ベースのトークン圧縮による効率的なビデオ理解
MARC: Memory-Augmented RL Token Compression for Efficient Video Understanding
arXiv:2510.07915v3 発表タイプ:代替 要約: 大規模言語モデル(LLM)の迅速な進歩はマルチモーダルモデルの基盤を築きました。しかし、画像からビデオへ拡張する際に、高フレームレートのビデオ処理では計算コストが非常に高くなるという課題が残されています。トークン圧縮は有望な解決策ですが、既存のトレーニングフリーな手法は多くの場合、情報損失や性能低下を招いています。これを克服するため...
Original: arXiv:2510.07915v3 Announce Type: replace Abstract: The rapid progress of large language models (LLMs) has laid the foundation for multimodal models. However, visual language models (VLMs) still face...
実世界における西園橘の検出性能を向上させる多戦略フレームワーク
A Multi-Strategy Framework for Enhancing Shatian Pomelo Detection in Real-World Orchards
arXiv:2510.09948v2 Announce Type: replace 摘要:果園における西園橘の検出は収量推定とリーン製造にとって不可欠ですが、理想的なデータセットに最適化されたモデルは、デバイス依存のトーンシフト、照明の変化、大規模なスケール変化、および頻繁な被写体の覆い隠れにより、実際の現場では性能が低下しがちです。われわれは、実果園画像と厳選されたウェブ画像を組み合わせた多シ...
Original: arXiv:2510.09948v2 Announce Type: replace Abstract: Shatian pomelo detection in orchards is essential for yield estimation and lean production, but models tuned to ideal datasets often degrade in pra...
Color3D: ユーザー定義による一貫性のある 3D カラー化フレームワーク
Color3D: Controllable and Consistent 3D Colorization with Personalized Colorizer
arXiv:2510.10152v2 Announce Type: replace **Abstract:** この本研究では、モノクローム入力を基にして静的および動的な 3D シーンの色化を行うための、高適応性の Color3D と称するフレームワークを提案する。我々のアプローチは、視覚的に多様なかつchromatically vibrant(色彩鮮やかに)な再構築を可能にし、柔軟なユーザー...
Original: arXiv:2510.10152v2 Announce Type: replace Abstract: In this work, we present Color3D, a highly adaptable framework for colorizing both static and dynamic 3D scenes from monochromatic inputs, deliveri...
Face Verification における狭い受容野の利用
Restricted Receptive Fields for Face Verification
arXiv:2510.10753v2 宣言タイプ:置換 要約:深層ニューラルネットワークの意思決定プロセスを理解することは、その振る舞いを解析し、失敗ケースを診断する上で不可欠である。コンピュータビジョンにおいて、解釈可能性を向上させる一般的なアプローチは、事後法を用いて個別のピクセルに重要性を割り当てることである。これらはブラックボックスモデルを説明するために広く使用されているが、信頼性の高い評...
Original: arXiv:2510.10753v2 Announce Type: replace Abstract: Understanding how deep neural networks make decisions is crucial for analyzing their behavior and diagnosing failure cases. In computer vision, a c...
InternSVG: 多モーダル大言語モデルを活用した統合 SVG タスクへの取り組み
InternSVG: Towards Unified SVG Tasks with Multimodal Large Language Models
arXiv:2510.11341v4 Announce Type: replace Abstract: 一般的な SVG モデル링には、断 fragmentされたデータセット、タスク間での手法の転移性の限界、構造化された複雑性の取り扱いの困難さが理由として挙げられます。これに対する対応として、私たちは多モーダル大言語モデル(MLLM)の強い転移および一般化能力を活用し、SVG の理解、編集、生成...
Original: arXiv:2510.11341v4 Announce Type: replace Abstract: General SVG modeling remains challenging due to fragmented datasets, limited transferability of methods across tasks, and the difficulty of handlin...
MS-Mix: ミックスアップの力を解き明かすマルチモーダル感情分析のための革新
MS-Mix: Unveiling the Power of Mixup for Multimodal Sentiment Analysis
arXiv:2510.11579v2 Announce Type: replace Abstract: マルチモーダル感情分析(MSA)は、テキスト、動画、音声などの異なったデータソースからの情報統合を通じて、人間の感情を特定し解釈することを目的としています。深層学習モデルはニューラルネットワークアーキテクチャの設計において進歩しましたが、マルチモーダル標注データの希少性により依然として制約を受け...
Original: arXiv:2510.11579v2 Announce Type: replace Abstract: Multimodal Sentiment Analysis (MSA) aims to identify and interpret human emotions by integrating information from heterogeneous data sources such a...
Paper Copilot: AI 会議におけるピアレビューの変遷を追跡する
Paper Copilot: Tracking the Evolution of Peer Review in AI Conferences
arXiv:2510.13201v2 Announce Type: replace 摘要: AI 会議の急速な拡大は、すでに脆弱なピアレビューシステムを圧迫しており、レビュー担当者の負荷増、専門性のミスマッチ、評価基準の不整合、表面化やテンプレート化されたレビュー、そして圧縮されたタイムラインによる限られた責任追及をもたらしています。それに対処するため、会議組織者は新しいポリシーと介入措置を導入...
Original: arXiv:2510.13201v2 Announce Type: replace Abstract: The rapid growth of AI conferences is straining an already fragile peer-review system, leading to heavy reviewer workloads, expertise mismatches, i...
Implicit Residual World Model を用いたビジョン・センチリック 4D 占有予測とプランニング
Vision-Centric 4D Occupancy Forecasting and Planning via Implicit Residual World Models
arXiv:2510.16729v3 Announce Type: replace 要旨: エンドツーエンドの自律走行システムは、環境を理解し予測するためにビジョン・センチリックなワールドモデルに依存する傾向が強まっています。しかし、これらのモデルにおける一般的な欠点は、未来のシーンの完全な再構成であり、これは静的な背景を余分にはがモデルすることによって大きな計算資源を消耗します。これを解決する...
Original: arXiv:2510.16729v3 Announce Type: replace Abstract: End-to-end autonomous driving systems increasingly rely on vision-centric world models to understand and predict their environment. However, a comm...
背景表現向上化のための解耦された補完スペクトル空間学習: 超分光異常検出における新たなパラダイム
Decoupled Complementary Spectral-Spatial Learning for Background Representation Enhancement in Hyperspectral Anomaly Detection
最近登場した超分光異常検出手法は、一度背景データセットでトレーニングすることで、すべてのシーンに対して再学習やパラメータチューニングなしで普遍的にデプロイ可能であり、高い効率性と頑健性を示している。このパラダイムに基づき、本稿では背景表現向上のための「解耦された補完スペクトル空間学習フレームワーク」を提案する。本フレームワークは、以下の2段階のトレーニング戦略に従う:(1) スペクトル增强网络を逆...
Original: arXiv:2510.18781v3 Announce Type: replace Abstract: A recent class of hyperspectral anomaly detection methods can be trained once on background datasets and then deployed universally without per-scen...
生物発覚ネットワークに基づく知的マルチタスクサプライチェーンモデル
An Intelligent Multi-task Supply Chain Model Based on Bio-inspired Networks
arXiv:2510.26203v2 Announce Type: replace 要約:サプライチェーンの持続可能性は、サプライチェーンの制御における最適な性能達成に不可欠な要素である。サプライチェーンに生じるリスク管理は、ネットワークの持続可能性を高め、サプライチェーンの性能効率を向上させるための基盤的な問題である。製品の正解分類は、持続可能なサプライチェーンにおいて別の重要な要素である。最近...
Original: arXiv:2510.26203v2 Announce Type: replace Abstract: The sustainability of supply chain plays a key role in achieving optimal performance in controlling the supply chain. The management of risks that ...
PALM:多主体手部先验を学習するためのデータセットとベースライン
PALM: A Dataset and Baseline for Learning Multi-subject Hand Prior
arXiv:2511.05403v3 発表タイプ:置換 要約: オブジェクトの掴み、ジェスチャーによる信号伝達、触覚を通じた感情共有はすべて、人間の手の独自の能力に根ざしています。しかし、複雑な幾何学、アペアーランス(表面の質感)、関節運動、特に無制限な照明と制限された視点条件下において、画像から高品質なパーソナライズされたハンドアバターを作成することは依然として困難です。これまでに進歩が制限され...
Original: arXiv:2511.05403v3 Announce Type: replace Abstract: The ability to grasp objects, signal with gestures, and share emotion through touch all stem from the unique capabilities of human hands. Yet creat...
Umwelt の構築:信念と意図の協調進化を通じた認知計画
Constructing the Umwelt: Cognitive Planning through Belief-Intent Co-Evolution
arXiv:2511.05540v3 Announce Type: replace Abstract: 本論文は、エンドツーエンド自律運転において支配的となっている認識論的仮定に挑戦します。その仮定は、高パフォーマンスな計画には高忠実度の世界再構築が必須であるというものです。認知科学に着想を得て、当論文ではメンタルベイジアン因果世界モデル(Mental Bayesian Causal World ...
Original: arXiv:2511.05540v3 Announce Type: replace Abstract: This paper challenges a prevailing epistemological assumption in End-to-End Autonomous Driving: that high-performance planning necessitates high-fi...
低用量コンピュータ断層撮影から心臓血管リスク評価のための解釈可能なクロス疾患推論
Explainable Cross-Disease Reasoning for Cardiovascular Risk Assessment from Low-Dose Computed Tomography
arXiv:2511.06625v4 Announce Type: replace Abstract: 低用量胸郭コンピュータ断層撮影(LDCT)は、呼吸器系および心臓両方の構造を内在的に捉えるため、肺と心血管健康の共同評価の独自の機会を提供します。しかし、既存の大部分のアプローチはこれらのドメインを独立したタスクとして処理しており、生理学的相互作用や共有イメージリングバイオマーカーを見過ごしてい...
Original: arXiv:2511.06625v4 Announce Type: replace Abstract: Low-dose chest computed tomography (LDCT) inherently captures both pulmonary and cardiac structures, offering a unique opportunity for joint assess...
主観的_PROCEDURE_AIアシスタントの開発:手法、ベンチマーク、および課題
Building Egocentric Procedural AI Assistant: Methods, Benchmarks, and Challenges
arXiv:2511.13261v2 Announce Type: replace 要旨:最近の視覚言語モデル(VLMs)および主観的知覚研究の進展を受けて、第一人称視点で日常の手順業務を段階的に支援する「主観的_PROCEDURE_AIアシスタント(EgoProceAssist)」という新しいトピックが提起されました。本論文では、EgoProceAssistの3つの核心タスクである「主観的_PR...
Original: arXiv:2511.13261v2 Announce Type: replace Abstract: Driven by recent advances in vision-language models (VLMs) and egocentric perception research, the emerging topic of an egocentric procedural AI as...
LookSharp: Transformer のアテンション機構における中間分布のエントロピー最小化を用いたテスト時適応
LookSharp: Attention Entropy Minimization for Test-Time Adaptation
arXiv:2511.18925v3 Announce Type: replace 要約:テスト時適応(TTA)は、分布のシフトに対して誤差を削減するために推論中にモデルを更新する手法である。出力分布に対するエントロピー最小化は TTA の損失関数として実効性を示してきたが、ここではトランスフォーマーのアテンション機構で計算される中間分布を用いることを研究する。最終層のクラスター(CLS)からパッ...
Original: arXiv:2511.18925v3 Announce Type: replace Abstract: Test-time adaptation (TTA) updates models during inference to reduce error on distribution shifts. While entropy minimization over the output distr...
MOTION: ML 支援のオンデバイス低遅延動作認識
MOTION: ML-Assisted On-Device Low-Latency Motion Recognition
arXiv:2512.00008v3 発表タイプ:置換 要約:低遅延ジェスチャー認識が可能な小型デバイスの利用は、日常の人間とのコンピュータインタラクション、特に医療監視分野において着実に進んでいます。落下検知、リハビリテーション追跡、患者監視などの組み込みソリューションは、望ましくない誤作動アラームを回避しつつ、動きを高速かつ効率的に追跡する必要があります。本研究では、三軸加速度センサーのみを使...
Original: arXiv:2512.00008v3 Announce Type: replace Abstract: The use of tiny devices capable of low-latency gesture recognition is gaining momentum in everyday human-computer interaction and especially in med...
GrndCtrl: 自己教師あり報酬配分による世界モデルのアンカリング
GrndCtrl: Grounding World Models via Self-Supervised Reward Alignment
arXiv:2512.01952v2 Announce Type: replace Abstract: 最近の動画世界モデルの進歩により、大規模生成モデルは高い視覚忠実度を備えたエンボディド環境をシミュレーションすることが可能となり、予測・計画・制御の強力な先行情報を提供しました。しかし、これらのモデルは非現実的ではないにもかかわらず、幾何学的アンカリングを欠いており、空間的な整合性と安定性を必...
Original: arXiv:2512.01952v2 Announce Type: replace Abstract: Recent advances in video world modeling have enabled large-scale generative models to simulate embodied environments with high visual fidelity, pro...
スケーリングアンカーリングの打破:低解像度トレーニングからの正確な高分解像度推論のための周波数表現学習
Breaking Scale Anchoring: Frequency Representation Learning for Accurate High-Resolution Inference from Low-Resolution Training
arXiv:2512.05132v2 発表タイプ:置換 要約:ゼロショット超解像度空間時間予測は、低解像度のデータでトレーニングされた深層学習モデルを使用して、高分解像度での推論を行うことを要求します。既存の研究は、異なる解像度で似ていない誤差を維持することを、多解像度一般化の成功指標と見なしていますが、数値解法からの代替として機能する深層学習モデルは、解像度の上昇に伴い誤差を減らすべきです。基本...
Original: arXiv:2512.05132v2 Announce Type: replace Abstract: Zero-Shot Super-Resolution Spatiotemporal Forecasting requires a deep learning model to be trained on low-resolution data and deployed for inferenc...
冠動脈造影 (CCTA) 結果を予測するための心電図基礎モデルのファインチューニング
Fine-tuning an ECG Foundation Model to Predict Coronary CT Angiography Outcomes
arXiv:2512.05136v2 発表 タイプ: 置換 要約:冠動脈疾患 (CAD) は依然として世界的な公衆衛生上の大きな負担でありながら、リスクスクリーニングのためのスケーラブルなツールは限られています。冠動脈 computed tomography angiography (CCTA) は初診の無侵襲診断法ですが、その广泛应用は資源要件と放射線被曝という制約から限られています。人工知能 ...
Original: arXiv:2512.05136v2 Announce Type: replace Abstract: Coronary artery disease (CAD) remains a major global public health burden, yet scalable tools for risk screening are limited. Although coronary com...