4037 articles

arxiv_cs_cv 2026/4/24

露光階級の合成による線形画像生成

Linear Image Generation by Synthesizing Exposure Brackets

arXiv:2604.21008v1 発表型：新規要約: プロの編集は、光子がセンサーに当たった後に、画像信号処理 (ISP) パイプラインを通じて表示参照画像として出力されます。しかし、これらの画像は入射光に忠実ではなく、ダイナミックレンジが圧縮され、主観的な好みに基づきスタイル化されています。一方、RAW 画像は非線形トーンマップ処理前にセーナーの直接的な信号を記録します。カメラ応答曲線補...

Original: arXiv:2604.21008v1 Announce Type: new Abstract: The life of a photo begins with photons striking the sensor, whose signals are passed through a sophisticated image signal processing (ISP) pipeline to...

arxiv_cs_cv 2026/4/24

植物学者のように考えること：Intent-Driven Chain-of-Inquiry を用いてマルチモーダル言語モデルを課題化

Thinking Like a Botanist: Challenging Multimodal Language Models with Intent-Driven Chain-of-Inquiry

arXiv:2604.20983v1 発表タイプ：新規要約：ビジョン評価は通常、多段階のプロセスを通じて行われます。現代的な多くの分野で、専門家は構造化され、根拠に基づいた適応的な質問を用いて画像を分析します。植物病理学において、植物学者は葉画像を検査し、視覚的な手がかりを特定し、診断の意図を推論し、種、症状、重症度に適応するターゲットされた質問でさらに深掘りを行います。この構造化された探求...

Original: arXiv:2604.20983v1 Announce Type: new Abstract: Vision evaluations are typically done through multi-step processes. In most contemporary fields, experts analyze images using structured, evidence-base...

arxiv_cs_cv 2026/4/20

MM-Telco: 電気通信分野向けのベンチマークとマルチモーダル大規模言語モデル

MM-Telco: Benchmarks and Multimodal Large Language Models for Telecom Applications

arXiv:2511.13131v2 Announce Type: replace-cross 要約: 大規模言語モデル (LLM) は、複雑な論理思考および意思決定タスクを自動化する強力なツールとして登場しました。電気通信業界においては、ネットワーク最適化、トラブルシューティングの自動化、顧客サポートの向上、および規制準拠の保証に変革をもたらす可能性があります。しかし、これらの通信業界への展開は...

Original: arXiv:2511.13131v2 Announce Type: replace-cross Abstract: Large Language Models (LLMs) have emerged as powerful tools for automating complex reasoning and decision-making tasks. In telecommunications...

arxiv_cs_cv 2026/4/20

Power to the Clients: 独裁者設定における連合学習

Power to the Clients: Federated Learning in a Dictatorship Setting

arXiv:2510.22149v3 Announce Type: replace-cross 要約：連合学習（Federated Learning）は、複数のクライアントがローカルデータを共有せずに協調して共有モデルを学習させるための、分散モデル学習の有望なパラジグムとして台頭しました。しかし、連合学習の分散的な性質は、悪意を持つクライアントが学習プロセスを補強したり操作したりする脆弱性をもた...

Original: arXiv:2510.22149v3 Announce Type: replace-cross Abstract: Federated learning (FL) has emerged as a promising paradigm for decentralized model training, enabling multiple clients to collaboratively le...

arxiv_cs_cv 2026/4/20

MMAudioSep: Video 生成モデルを制御し、動画/テキストによる音源分離を向こうへ

MMAudioSep: Taming Video-to-Audio Generative Model Towards Video/Text-Queried Sound Separation

arXiv:2510.09065v2 Announce Type: replace-cross 摘要：MMAudioSep は、事前学習された動画から音の生成モデルを基盤とし、動画やテキストに問答した音源分離のための生成モデルを導入しました。動画やテキストと音の関係に関する知識を活用することで、モデルを効率よくトレーニングできます。つまり、ゼロから学習する必要がありません。MMAudioSep の...

Original: arXiv:2510.09065v2 Announce Type: replace-cross Abstract: We introduce MMAudioSep, a generative model for video/text-queried sound separation that is founded on a pretrained video-to-audio model. By ...

arxiv_cs_cv 2026/4/20

知能型医療画像プラットフォーム：画像解析と臨床報告生成のために VLM ベースの自動化枠組み

Intelligent Healthcare Imaging Platform: A VLM-Based Framework for Automated Medical Image Analysis and Clinical Report Generation

arXiv:2509.13590v3 発表タイプ：replace-cross 摘要：人工知能（AI）が医療画像領域で急速に進化する中、診断医学および臨床意思決定プロセスが変容しています。本稿は、ヘルスケア診断において Vision-Language Models（VLMs）を活用した知能型マルチモーダル枠組みを提示します。この枠組みは、Google Gemini 2.5 Flash を統合し、CT...

Original: arXiv:2509.13590v3 Announce Type: replace-cross Abstract: The rapid advancement of artificial intelligence (AI) in healthcare imaging has revolutionized diagnostic medicine and clinical decision-maki...

arxiv_cs_cv 2026/4/20

AutoDrive-R$^2$: 自律走行における VLA モデルの推論能力と自己反省能力を促進する

AutoDrive-R$^2$: Incentivizing Reasoning and Self-Reflection Capacity for VLA Model in Autonomous Driving

arXiv:2509.01944v3 Announce Type: replace-cross 要約: 自律走行システムにおける視覚・言語・アクション（VLA）モデルは、マルチモーダル感知と意思決定能力を統合することで変革的な可能性を示しました。しかし、意思決定プロセスの解釈可能性と整合性、およびアクションシーケンスの妥当性は十分に研究されていません。これらの課題に対処するため、私らは自律走行シス...

Original: arXiv:2509.01944v3 Announce Type: replace-cross Abstract: Vision-Language-Action (VLA) models in autonomous driving systems have recently demonstrated transformative potential by integrating multimod...

arxiv_cs_cv 2026/4/20

このグラフは私を欺いていますか？誤解を招くビジュアライゼーションの自動検出

Is this chart lying to me? Automating the detection of misleading visualizations

arXiv:2508.21675v3 Announce Type: replace-cross 摘要: 誤解を招くビジュアライゼーションは、SNS とウェブ上で情報操作の強力な原動力となっています。チャート設計原則に違反することで、データを歪曲させ、読者が不正確な結論に辿り着くように導きます。これまでの研究により、人間もマルチモーダル大規模言語モデル（MLLM）も、こうしたビジュアライゼーションに...

Original: arXiv:2508.21675v3 Announce Type: replace-cross Abstract: Misleading visualizations are a potent driver of misinformation on social media and the web. By violating chart design principles, they disto...

arxiv_cs_cv 2026/4/20

LiDAR の開いた環境外検知のためのニューラル分布先合

Neural Distribution Prior for LiDAR Out-of-Distribution Detection

arXiv:2604.09232v2 Announce Type: replace 要約: LiDAR に基づく感知は、暗い照明や悪天候などの状況に対する堅牢性により、自動運転において不可欠です。しかし、現在のモデルはクローズド・セットの仮定に基づいて動作しており、開いた世界における予期しない分布外（OOD）オブジェクトを検知することができません。既存のOOD スコア計算関数は、LiDAR のOO...

Original: arXiv:2604.09232v2 Announce Type: replace Abstract: LiDAR-based perception is critical for autonomous driving due to its robustness to poor lighting and visibility conditions. Yet, current models ope...

arxiv_cs_cv 2026/4/20

音声と視覚特徴空間間の感情意味ベクトルモデリングに基づくクロスモーダル感情転移：会話がめざき動画における感情編集のためのアプローチ

Cross-Modal Emotion Transfer for Emotion Editing in Talking Face Video

論文 ID: arXiv:2604.07786v2 発表タイプ: 更新要旨：会話がめざき生成は生成モデルの核心的なアプリケーションとして注目を集めています。合成動画の表現性とリアルネスを高めるため、会話がめざき動画における感情編集は極めて重要な役割を果たしています。既存のアプローチは、表現の柔軟性を制限し、また拡張的感情（例：皮肉）を生成するのに苦労することがよくあります。ラベルベースの方法は感...

Original: arXiv:2604.07786v2 Announce Type: replace Abstract: Talking face generation has gained significant attention as a core application of generative models. To enhance the expressiveness and realism of s...

arxiv_cs_cv 2026/4/20

HQF-Net: 遠隔センシング画像分割のための混合量子・古典的マルチスケーリング融和网络

HQF-Net: A Hybrid Quantum-Classical Multi-Scale Fusion Network for Remote Sensing Image Segmentation

arXiv:2604.06715v2 Announce Type: replace 摘要：遠隔センシングのセマンティック分割では、複雑なシーンにおいて微細な空間詳細と高次セマンティック文脈を同時に捉えることが求められるモデルが必要である。従来のエンコーダー・デコーダー型アーキテクチャ（例：U-Net）は依然として強力なベースラインだが、グローバルなセマンティクスや構造化された特徴の相互作用を十分に...

Original: arXiv:2604.06715v2 Announce Type: replace Abstract: Remote sensing semantic segmentation requires models that can jointly capture fine spatial details and high-level semantic context across complex s...

arxiv_cs_cv 2026/4/20

InstructTable: 指示を用いたテーブル構造認識の改善

InstructTable: Improving Table Structure Recognition Through Instructions

InstructTable: Instruction-Guided Table Structure Recognition arXiv:2604.02880v2 Announce Type: replace Table 構造認識（TSR）は、テーブル画像を構造化された表現に変換する能力により、広範な実用的重要性を有しています。しかし、統合セルや空白セルを含む複雑なレイアウトを処理する際に、大き...

Original: arXiv:2604.02880v2 Announce Type: replace Abstract: Table structure recognition (TSR) holds widespread practical importance by parsing tabular images into structured representations, yet encounters s...

arxiv_cs_cv 2026/4/20

クロスモーダル学習によるプランクトン認識

Cross-modal learning for plankton recognition

arXiv:2603.16427v2 Announce Type: replace Abstract：本論文は、複数モーダルと大量のラベル付けされていないプランクトンデータを活用してプランクトン認識モデルを構築できるようにする自己教師ありクロスモーダル座標化を戦略として検討する。自動画像装置により、大規模に連続的にプランクトン画像データを収集可能となっている。現在の自動プランクトン画像認識手法は、...

Original: arXiv:2603.16427v2 Announce Type: replace Abstract: This paper considers self-supervised cross-modal coordination as a strategy enabling utilization of multiple modalities and large volumes of unlabe...

arxiv_cs_cv 2026/4/20

OSCBench: テキストからビデオ生成におけるオブジェクト状態変化のベンチマーク評価

OSCBench: Benchmarking Object State Change in Text-to-Video Generation

arXiv:2603.11698v2 Announce Type: replace 概要：テキストからビデオ生成（T2V）モデルは、視覚的に高品質かつ時間的に整合性のあるビデオを生み出すことで迅速な進歩を遂げています。しかし、既存のベンチマークは主に関視覚的品質、テキストとビデオの整合性、または物理的可能性に焦点を当てており、テキストプロンプトに明示的に指定されたオブジェクト状態変化（OSC）とい...

Original: arXiv:2603.11698v2 Announce Type: replace Abstract: Text-to-video (T2V) generation models have made rapid progress in producing visually high-quality and temporally coherent videos. However, existing...

arxiv_cs_cv 2026/4/20

Social-JEPA：顕著な幾何学的同相現象の発見

Social-JEPA: Emergent Geometric Isomorphism

arXiv:2603.02263v2 発表型：置換要旨: 世界モデルは、豊かにした感覚流を圧縮し、コンパクトな潜在コードに変換して未来の観測を予見します。同一の環境からの異なる視点において、パラメータの共有や調整なく、各別々のエージェントがこのようなモデルを取得させました。トレーニングの終了後、それらの内部表現は、互いの潜在空間を近似して線形等距離変換に関連付けるという、驚くべき顕著な性質を示し...

Original: arXiv:2603.02263v2 Announce Type: replace Abstract: World models compress rich sensory streams into compact latent codes that anticipate future observations. We let separate agents acquire such model...

arxiv_cs_cv 2026/4/20

HiFi-Inpaint: 詳細保持型ヒューマン・プロダクト画像生成のための高忠実度参照ベースインパントーピングへ

HiFi-Inpaint: Towards High-Fidelity Reference-Based Inpainting for Generating Detail-Preserving Human-Product Images

arXiv:2603.02210v3 公告種別：更新要約: ヒューマン・プロダクト画像は、人物と製品の融合を提示するものであり、広告、電子商業、デジタルマーケティングにおいて極めて重要な役割を果たしています。このような画像を生成するための根本的な課題は、製品の詳細を高忠実度で保存することにあります。既存のパラダイムの中で、参照ベースのインパントーピングは、製品の参照画像を利用する過程を通じてイン...

Original: arXiv:2603.02210v3 Announce Type: replace Abstract: Human-product images, which showcase the integration of humans and products, play a vital role in advertising, e-commerce, and digital marketing. T...

arxiv_cs_cv 2026/4/20

医療画像解析のための微分プライバシー表現幾何学

Differential privacy representation geometry for medical image analysis

論文: arXiv:2603.01098v2 アナウンスタイプ: 更新要約: 微分プライバシー（DP）の影響は、一般的にエンド・トゥ・エンドのパフォーマンスを通じてのみ評価されており、プライバシーによる効率的な損失のメカニズムが明確ではありません。本研究では、「医療画像解析用微分プライバシー表現幾何学（DP-RGMI）」というフレームワークを導入し、DP を表現空間の構造化された変換とみなし...

Original: arXiv:2603.01098v2 Announce Type: replace Abstract: Differential privacy (DP)'s effect in medical imaging is typically evaluated only through end-to-end performance, leaving the mechanism of privacy-...

arxiv_cs_cv 2026/4/20

CASR：分布整合と自己類似性認識を備えた任意の超大型回帰解析のための堅実な周期的枠組

CASR: A Robust Cyclic Framework for Arbitrary Large-Scale Super-Resolution with Distribution Alignment and Self-Similarity Awareness

arXiv:2602.22159v2 発表型：置換要約：任意スケール回帰解析（ASISR）は、クロススケール分布シフトという根本的な制約により、推論スケールが訓練範囲を外れるとノイズ、ぼかし、アーティファクトが急増します。我々はこの課題をクロススケール分布遷移の観点から再考し、超倍率回帰解析を分布内スケール遷移のシーケンスとして再定式化する、単純だが極めて効率的な周期的回帰解析枠組 CASR を...

Original: arXiv:2602.22159v2 Announce Type: replace Abstract: Arbitrary-Scale SR (ASISR) remains fundamentally limited by cross-scale distribution shift: once the inference scale leaves the training range, noi...

arxiv_cs_cv 2026/4/20

1 つの画像とマルチモーダリティだけで、新しい視点合成が可能

A Single Image and Multimodality Is All You Need for Novel View Synthesis

arXiv:2602.17909v2 発表タイプ：置き換えアブストラクト：拡散モデルアプローチは、単眼深度推定から推測された幾何学を条件として生成モデルに条件付けることで、最近、1 つの画像からの新しい視点合成で強力な性能を示しました。しかし、実際には、合成された視覚の品質と一貫性が、単元深度推定に基づく基盤深度の信頼性によって本質的に制限されており、低テクスチャ、悪天候、または大量の遮蔽を持つ...

Original: arXiv:2602.17909v2 Announce Type: replace Abstract: Diffusion-based approaches have recently demonstrated strong performance for single-image novel view synthesis by conditioning generative models on...

arxiv_cs_cv 2026/4/20

LLaMo：Continuous Autoregressive Token を用いた統一された_motion_理解和生成のための Pretrained Language Model スケーリング

LLaMo: Scaling Pretrained Language Models for Unified Motion Understanding and Generation with Continuous Autoregressive Tokens

arXiv:2602.12370v2 Announce Type: replace Abstract: 最近の大規模モデルの進展により、統合的なマルチモーダル生成と理解への大幅な進歩をもたらしました。しかし、運動と言語の生成と理解を統合するモデルの開発は、まだあまり進んでいません。既存のアプローチは、大規模言語モデル（LLM）をパaired motion-text データ上でファインチューニング...

Original: arXiv:2602.12370v2 Announce Type: replace Abstract: Recent progress in large models has led to significant advances in unified multimodal generation and understanding. However, the development of mod...