4037 articles

arxiv_cs_cv 2026/2/10

Neural-Augmented Kelvinlet for Real-Time Soft Tissue Deformation Modeling

arXiv:2506.08043v3 Announce Type: replace-cross Abstract: 軟組織相互作用の高精度かつ効率的なモデリングは、手術シミュレーション、手術ロボティクス、およびモデルベースの手術自動化の進展にとって不可欠である。リアルタイムレイテンシを達成するために、古典的な有限要素法（FEM）解算者はしばしばニューラル近似に置き換えられるが、物理的事前知識を組み...

Original: arXiv:2506.08043v3 Announce Type: replace-cross Abstract: Accurate and efficient modeling of soft-tissue interactions is fundamental for advancing surgical simulation, surgical robotics, and model-ba...

arxiv_cs_cv 2026/2/10

タスク条件付きプロbing が、指示調整されたマルチモーダル LLM における脳同期パターンの開示

Task-Conditioned Probing Reveals Brain-Alignment Patterns in Instruction-Tuned Multimodal LLMs

arXiv:2506.08277v2 Announce Type: replace-cross 要旨：最近の体素別マルチモーダル脳エンコーディング研究により、マルチモーダル大規模言語モデル（MLLM）は、単一モードモデルと比較してより高い脳同期性を示していることが示されています。さらに、指示調整されたマルチモーダル（IT）モデルは、特定のタスク向けの表現を生成し、それが脳活動と強く一致することが...

Original: arXiv:2506.08277v2 Announce Type: replace-cross Abstract: Recent voxel-wise multimodal brain encoding studies have shown that multimodal large language models (MLLMs) exhibit a higher degree of brain...

arxiv_cs_cv 2026/2/10

SIMSHIFT: 分布シフトへの神経サロゲート適応のためのベンチマーク

SIMSHIFT: A Benchmark for Adapting Neural Surrogates to Distribution Shifts

arXiv:2506.12007v2 Announce Type: replace-cross 摘要: 偏微分方程式（PDE）のための神経サロゲートは、そのトレーニング分布以外の問題構成（例：新しい初期条件や構造的次元）で評価される際、著しい性能低下を示す傾向があります。無教師学習ドメイン適応（UDA）技術は、画像認識や自然言語処理の分野でラベル付けされていないデータなしでのドメイン間汎化のために...

Original: arXiv:2506.12007v2 Announce Type: replace-cross Abstract: Neural surrogates for Partial Differential Equations (PDEs) often suffer significant performance degradation when evaluated on problem config...

arxiv_cs_cv 2026/2/10

Sequential Attention-based Sampling for Histopathological Analysis

arXiv:2507.05077v4 Announce Type: replace-cross Abstract: 深層学習は、自動化された組織診断においてますます活用されています。しかし、全スライド画像（WSI）はしばしば数十億画素に及び、これらを一括して高解像度で解析することは計算的に不可能に近いものです。診断用のラベルは主にスライドレベルのみで利用可能であり、画像を微視的な（パッチレベル）...

Original: arXiv:2507.05077v4 Announce Type: replace-cross Abstract: Deep neural networks are increasingly applied in automated histopathology. Yet, whole-slide images (WSIs) are often acquired at gigapixel siz...

arxiv_cs_cv 2026/2/10

コロニアルバージニアの地権付与をジオロケーションするための大規模言語モデルのベンチマーク化

Benchmarking Large Language Models for Geolocating Colonial Virginia Land Grants

arXiv:2508.08266v2 Announce Type: replace-cross Abstract: ヴェرجニア州の17世紀および18世紀の土地特許は、主に文法的な境界記述としてのみ残り、空間解析を制限しています。本研究は、これらの説明的記述を、特定の評価文脈内で地理的に正確な緯度/経度座標に変換する際の、現在の世代の大規模言語モデル（LLM）を系統的に評価しています。5,471件...

Original: arXiv:2508.08266v2 Announce Type: replace-cross Abstract: Virginia's seventeenth- and eighteenth-century land patents survive primarily as narrative metes-and-bounds descriptions, limiting spatial an...

arxiv_cs_cv 2026/2/10

非対比 CT MRI から脳腫瘍の強化を予測する人工知能

Predicting brain tumour enhancement from non-contrast MR imaging with artificial intelligence

arXiv:2508.16650v2 Announce Type: replace-cross 要約: 脳腫瘍画像評価には通常、対比前と対比後 MR 成像が不可欠ですが、頻回な追跡観察、腎不全、アレルギー、および小児患者においては、ガドリニウム投与は必ずしも望ましくありません。我々は、非対比 MR 成像序列のみを用いて脳腫瘍の強化を予測できるディープラーニングモデルを開発し、検証することを目的と...

Original: arXiv:2508.16650v2 Announce Type: replace-cross Abstract: Brain tumour imaging assessment typically requires both pre- and post-contrast MRI, but gadolinium administration is not always desirable, su...

arxiv_cs_cv 2026/2/10

A-FloPS: 適応型フローパスサンプリヤーによる拡散モデルの加速

A-FloPS: Accelerating Diffusion Models via Adaptive Flow Path Sampler

arXiv:2509.00036v2 発表タイプ：置き換えクロスサマリエ：拡散モデルは多様なモダリティにおいて最先端の生成性能を提供していますが、内在する反復サンプリングプロセスにより計算コストが高くなります。既存のトレーニング不要な加速手法は、逆時間 ODE（微分方程式）のための数値解算器を改良することで効果を高めるものですが、それらの効果は根本的に下流のサンプリング経路の非効率性に制限されて...

Original: arXiv:2509.00036v2 Announce Type: replace-cross Abstract: Diffusion models deliver state-of-the-art generative performance across diverse modalities but remain computationally expensive due to their ...

arxiv_cs_cv 2026/2/10

ManiVID-3D: 分岐された 3D 表現を通じた観視点不変性の強化学習によるロボティクス操作の一般化

ManiVID-3D: Generalizable View-Invariant Reinforcement Learning for Robotic Manipulation via Disentangled 3D Representations

arXiv:2509.11125v2 Announce Type: replace-cross Abstract: 実世界の操作タスクに視覚的強化学習 (RL) ポリシーを展開する際、カメラからの観視点の变化はしばしば妨げとなります。一定の前方カメラで訓練されたポリシーが、カメラがシフトされた場合に失敗することは避けられない実際の環境において、センサーの配置を適切に管理することは困難です。既存の方...

Original: arXiv:2509.11125v2 Announce Type: replace-cross Abstract: Deploying visual reinforcement learning (RL) policies in real-world manipulation is often hindered by camera viewpoint changes. A policy trai...

arxiv_cs_cv 2026/2/10

MetaCluster：Kolmogorov-Arnold ネットワークの深層圧縮を可能にする

MetaCluster: Enabling Deep Compression of Kolmogorov-Arnold Network

arXiv:2510.19105v2 Announce Type: replace-cross 要約：Kolmogorov-Arnold ネットワーク（KAN）はスカラー重みを用いる代わりに、エッジごとの基底係数ベクターを用いることで、表現力と精度を向上させますが、パラメータ数とメモリ使用量を乗算的に増大させる問題があります。本研究では、KAN の精度を犠牲化さずに KAN を高度に圧縮可能にする...

Original: arXiv:2510.19105v2 Announce Type: replace-cross Abstract: Kolmogorov-Arnold Networks (KANs) replace scalar weights with per-edge vectors of basis coefficients, thereby increasing expressivity and acc...

arxiv_cs_cv 2026/2/10

BEAT: VLM ベースのエンボディドエージェントに対する対比によるトリガー学習を利用したビジュアルバックドア攻撃

BEAT: Visual Backdoor Attacks on VLM-based Embodied Agents via Contrastive Trigger Learning

arXiv:2510.27623v2 Announce Type: replace-cross 摘要：最近のビジョン・ langage モデル（VLM）の進歩は、エンボディドエージェントの直接認識、推論、タスク指向アクション計画機能を可能にし、その推進力を加速させた。しかし、このビジュアル駆動型のエンボディドエージェントは新たな攻撃表面を開放しており、そこではエージェントが通常通り動作した後、シー...

Original: arXiv:2510.27623v2 Announce Type: replace-cross Abstract: Recent advances in Vision-Language Models (VLMs) have propelled embodied agents by enabling direct perception, reasoning, and planning task-o...

arxiv_cs_cv 2026/2/10

ディフュージョンモデルにおける効率的なテストタイムの反復誤り補正

Test-Time Iterative Error Correction for Efficient Diffusion Models

arXiv:2511.06250v3 Announce Type: replace-cross 要約: 資源制約されたデバイス向けの高品質画像生成への需要が高まる中、効率的なディフュージョンモデルの関心が高まっています。しかし、この類のモデルは効率的化技術によって導入された近似的な誤差に悩まれ、それが生成の品質を著しく低下させます。一旦デプロイされると、これらの誤りを修正することは困難であり、通常...

Original: arXiv:2511.06250v3 Announce Type: replace-cross Abstract: With the growing demand for high-quality image generation on resource-constrained devices, efficient diffusion models have received increasin...

arxiv_cs_cv 2026/2/10

CostNav: 現実世界の物理 AIエージェントの経済コスト評価のためのナビゲーションベンチマーク

CostNav: A Navigation Benchmark for Real-World Economic-Cost Evaluation of Physical AI Agents

arXiv:2511.20216v3 Announce Type: replace-cross 摘要: 現在のナビゲーションベンチマークは、単純化された環境におけるタスク成功に重点を置いているため、自律送達システムの現実世界の商業化において本質的な多面的な経済制約を無視している。我々は、業界標準データ（例：SEC 開示書類や AIS 傷害報告書）と、Isaac Sim の詳細な衝突および貨物ダイナ...

Original: arXiv:2511.20216v3 Announce Type: replace-cross Abstract: While current navigation benchmarks prioritize task success in simplified settings, they neglect the multidimensional economic constraints es...

arxiv_cs_cv 2026/2/10

背景分布シフト下におけるオープンセットドメイン適応：課題と証明に基づく効率的解決策

Open-Set Domain Adaptation Under Background Distribution Shift: Challenges and A Provably Efficient Solution

arXiv:2512.01152v3 Announce Type: replace-cross 摘要：機械学習システムを現実世界に展開する際、核心となる課題は、データがシフトしてもパフォーマンスを維持するモデルを維持することです。このようなシフトには様々な形式があり、トレーニング時には存在しなかった新しいクラスが出現する問題はオープンセット認識と呼ばれます。また、既知カテゴリーの分布が変化すること...

Original: arXiv:2512.01152v3 Announce Type: replace-cross Abstract: As we deploy machine learning systems in the real world, a core challenge is to maintain a model that is performant even as the data shifts. ...

arxiv_cs_cv 2026/2/10

同時触覚・視覚感知を用いたマルチモーダルロボーマニピュレーション学習

Simultaneous Tactile-Visual Perception for Learning Multimodal Robot Manipulation

arXiv:2512.09851v2 Announce Type: replace-cross Abstract: ロボットマニピュレーションでは、複雑な現実世界タスクを処理するために豊富なマルチモーダル感知と効果的な学習フレームワークの両方が必要です。触覚と視覚感知を統合した透過皮膚（ST: See-Through-Skin）センサーは有望な感知能力を提供しており、現代の真似学習は政策取得のため...

Original: arXiv:2512.09851v2 Announce Type: replace-cross Abstract: Robotic manipulation requires both rich multimodal perception and effective learning frameworks to handle complex real-world tasks. See-throu...

arxiv_cs_cv 2026/2/10

スプリッド・テンポラル推定のための、畳み込みのみからなるニューラルネットワークを用いた相場シミュレーションへの拡張

Towards Spatio-Temporal Extrapolation of Phase-Field Simulations with Convolution-Only Neural Networks

arXiv:2601.04510v2 Announce Type: replace-cross 本文書では、金属合金化（LMD）の相場シミュレーションにおいて、複雑な微細構造進化を捉えられる一方で、大規模な領域や長期間のシミュレーションではコストがかさんで高価になるという課題に対処します。本稿では、データトレーニング範囲を空間・時間ともに大幅に超える外推能力を持つ、完全に畳み込み型かつ条件付パラメ...

Original: arXiv:2601.04510v2 Announce Type: replace-cross Abstract: Phase-field simulations of liquid metal dealloying (LMD) can capture complex microstructural evolutions but can be prohibitively expensive fo...

arxiv_cs_cv 2026/2/10

W-DUALMINE: 信頼性を重み付けた双専門家融合法と残差相関維持を用いた医学画像融合

W-DUALMINE: Reliability-Weighted Dual-Expert Fusion With Residual Correlation Preservation for Medical Image Fusion

arXiv:2601.08920v2 Announce Type: replace-cross Abstract: 医学画像融合は、複数の画像モードから補完的な情報を統合し、臨床的解釈を改善します。しかし、既存のディープラーニングベースの手法、包括的に最近の空間-周波数フレームワーク（例：AdaFuse や ASFE-Fusion）は、相関係数（CC）や相互情報量（MI）で測定されるグローバルな統...

Original: arXiv:2601.08920v2 Announce Type: replace-cross Abstract: Medical image fusion integrates complementary information from multiple imaging modalities to improve clinical interpretation. However, exist...

arxiv_cs_cv 2026/2/10

MACD：反事例データを用いたモデル意識的な対比型デコーディング

MACD: Model-Aware Contrastive Decoding via Counterfactual Data

arXiv:2602.01740v2 Announce Type: replace-cross 摘要：ビデオ言語モデル（Video-LLMs）は、視覚的証拠が弱く、曖昧、または偏っている場合に、合理的だが根拠のないコンテンツを生成する幻覚（hallucination）に陥りがちです。既存のデコーディング手法（例えば対比型デコーディング：Contrastive Decoding（CD））は、幻覚パタ...

Original: arXiv:2602.01740v2 Announce Type: replace-cross Abstract: Video language models (Video-LLMs) are prone to hallucinations, often generating plausible but ungrounded content when visual evidence is wea...

arxiv_cs_cv 2026/2/10

Time Is All It Takes: Spike-Retiming Attacks on Event-Driven Spiking Neural Networks

arXiv:2602.03284v2 Announce Type: replace-cross Abstract: スパイキング神経ネットワーク（SNN）は離散のスパイキングを用いて計算し、時系列構造を活用しますが、多くの対抗手続は強度やイベントの数を変えており、タイミング自体を変えません。本研究では、既存のスパイキングのタイミングだけを変えて、スプライキング数と振幅を保ち、イベント駆動型 SN...

Original: arXiv:2602.03284v2 Announce Type: replace-cross Abstract: Spiking neural networks (SNNs) compute with discrete spikes and exploit temporal structure, yet most adversarial attacks change intensities o...

arxiv_cs_cv 2026/2/10

非滑らかな要素は Vision Transformer のフィニュートニングに有利となる

Vision Transformer Finetuning Benefits from Non-Smooth Components

arXiv:2602.06883v2 Announce Type: replace-cross 摘要：トランスフォーマーアーキテクチャの滑らかさ（smoothness）は、汎化能力、トレーニング安定性、および对抗性頑健性といった文脈で広く研究されてきた。しかし、転移学習におけるその役割は十分には理解されていない。本論文では、ビジョントランスフォーマーのコンポーネントが入力変化に対して出力を適応させ...

Original: arXiv:2602.06883v2 Announce Type: replace-cross Abstract: The smoothness of the transformer architecture has been extensively studied in the context of generalization, training stability, and adversa...

arxiv_cs_cv 2026/2/10

法医学的履物解析のためのスケーラブルな spatial point process models

Scalable spatial point process models for forensic footwear analysis

arXiv:2602.07006v1 発表タイプ: new 要旨: 犯罪現場から回収された靴跡証拠は、法科学捜査において重要な役割を果たします。靴跡を調べることで、捜査官は被疑者が履いていた靴の詳細を特定できます。しかし、被疑者の靴が現場の跡とメーカーやモデルが一致することを示すだけでは不十分な場合があります。通常、同じサイズ・メーカー・モデルの靴は何千足と生産されており、そのいずれもが跡を残し...

Original: arXiv:2602.07006v1 Announce Type: new Abstract: Shoe print evidence recovered from crime scenes plays a key role in forensic investigations. By examining shoe prints, investigators can determine deta...