4037 articles
トレーニングとデプロイメントのギャップを架ける:有効なクァンタライズ・アウェアな画像增強のためのゲート付きエンコーディングとマルチスケールレファインメント
Bridging the Training-Deployment Gap: Gated Encoding and Multi-Scale Refinement for Efficient Quantization-Aware Image Enhancement
arXiv:2604.21743v1 Announce Type: cross Abstract: モバイルデバイス向けの画像增強モデルは、高い出力品質とモバイルハードウェアが要求する高速処理速度のバランスをとることに苦労しています。最近の深層学習モデルは、低品質のモバイル写真を高品質な画像に変えることができますが、実際のモバイル電話で使用するために低い精度の形式に変換されると、その性能はしばし...
Original: arXiv:2604.21743v1 Announce Type: cross Abstract: Image enhancement models for mobile devices often struggle to balance high output quality with the fast processing speeds required by mobile hardware...
StyleID: stylization に依存しない顔の同一性認識のための感知意識データセットと指標
StyleID: A Perception-Aware Dataset and Metric for Stylization-Agnostic Facial Identity Recognition
arXiv:2604.21689v1 Announce Type: cross Abstract: クリエイティブな顔のスタイル化は、漫画、スケッチ、絵画など多様な視覚的文法において肖像を描画しつつ、認識可能な同一性を保持することを目的としています。しかし、通常の自然写実の写真においてトレーニング・カリブレーションがなされている既存の同一性エンコーダーは、スタイル化の下で劇的な脆性を示します。彼ら...
Original: arXiv:2604.21689v1 Announce Type: cross Abstract: Creative face stylization aims to render portraits in diverse visual idioms such as cartoons, sketches, and paintings while retaining recognizable id...
DiffNR: 拡散モデル活用によるスカラー場・3D 高斯関数最適化手法の提案:視部数が少ない 3D 断層画像再構成におけるアートの抑制
DiffNR: Diffusion-Enhanced Neural Representation Optimization for Sparse-View 3D Tomographic Reconstruction
arXiv:2604.21518v1 Announce Type: cross 抽象:ニューラル表現(NRs)であるニューラル場や 3D 高ス関数は、計算断層撮影(CT)における体積データを効率的にモデル化するが、視部数が少ない環境では重篤なアーチファクトを引き起こす。これを解決するため、我々は拡散事前知識を用いて NR 最適化を強化する新しい枠組み DiffNR を提案する。その核心は、劣化した...
Original: arXiv:2604.21518v1 Announce Type: cross Abstract: Neural representations (NRs), such as neural fields and 3D Gaussians, effectively model volumetric data in computed tomography (CT) but suffer from s...
強化学習には必要な幾何学的盲点がある:理論、帰結と最小限の修復
Supervised Learning Has a Necessary Geometric Blind Spot: Theory, Consequences, and Minimal Repair
arXiv:2604.21395v1 Announce Type: cross Abstract: 私たちは,経験的リスク最小化(ERM)が学習した表現に対して必要な幾何学的制約を課すことを証明した:任意の学習器が監督学習損失を最小化するには、訓練データにおいてラベルと相関している方向については、テスト時において害になる方向でも非ゼロのヤコビアン感度を保つ必要がある。これは既存手法の偶発的な失敗で...
Original: arXiv:2604.21395v1 Announce Type: cross Abstract: We prove that empirical risk minimisation (ERM) imposes a necessary geometric constraint on learned representations: any encoder that minimises super...
記号によるGroundingが、抽象視覚推論における表現論的ボトルネックを明らかにする
Symbolic Grounding Reveals Representational Bottlenecks in Abstract Visual Reasoning
arXiv:2604.21346v1 Announce Type: cross アブストラクト: 視覚 - 言語モデル(VLMs)は、Bongard 問題などの抽象視覚推論ベンチマークでしばしば失敗し、ボトルネックが推論にあるのか表現にあるのかという問いを提起します。我々は、真の推論プログラム(ground-truth generative programs)を備えた抽象的概念学習の合成ベンチマー...
Original: arXiv:2604.21346v1 Announce Type: cross Abstract: Vision--language models (VLMs) often fail on abstract visual reasoning benchmarks such as Bongard problems, raising the question of whether the main ...
単一チャートを超えて:マルチチャートにおける質問応答のベンチマーク
Beyond Single Plots: A Benchmark for Question Answering on Multi-Charts
arXiv:2604.21344v1 Announce Type: cross 要約:チャートは複雑な情報を提示するために広く利用されています。実世界の上で意味のある洞察を導くためには、複数の関連するチャートを同時に解釈する必要があります。マルチチャート画像の理解に関する研究は十分に探求されていません。これにより、マルチチャート画像上の質問応答に专门为設計された中規模データセット PolyChar...
Original: arXiv:2604.21344v1 Announce Type: cross Abstract: Charts are widely used to present complex information. Deriving meaningful insights in real-world contexts often requires interpreting multiple relat...
Measure Twice, Click Once: Co-evolving Proposer and Visual Critic via Reinforcement Learning for GUI Grounding
arXiv:2604.21268v1 発表タイプ: cross 摘要:グラフィカルユーザインタフェース(GUI)のグラウンディング(Grounding)は、自然言語の指示を正確なピクセル座標にマッピングすることを要請します。しかし、視覚的に同質な要素および高密度なレイアウトが存在することにより、モデルは通常意味的な意図を理解することはできても、正確な局所的な配置を達成するには困難を強いられます。試...
Original: arXiv:2604.21268v1 Announce Type: cross Abstract: Graphical User Interface (GUI) grounding requires mapping natural language instructions to precise pixel coordinates. However, due to visually homoge...
ARFBench: ソフトウェアインシデント対応における時系列質問回答能力のベンチマーク
ARFBench: Benchmarking Time Series Question Answering Ability for Software Incident Response
arXiv:2604.21199v1 Announce Type: cross 摘要: 時系列質問回答(TSQA),すなわち自然言語質問を発信して時系列の性質を推論し推理する技術は、基礎モデルにおいて有望でかつ研究が行われていない能力です。この作品では、ARFBench(時系列ベンチマーク)を提示し、ソフトウェアインシデントデータに起因する普遍的な時系列異常に対するマルチモーダル基礎モデル(FM)...
Original: arXiv:2604.21199v1 Announce Type: cross Abstract: Time series question-answering (TSQA), in which we ask natural language questions to infer and reason about properties of time series, is a promising...
拡張された構造化意味的イベントチェーンを用いた神経記号制操作理解
Neuro-Symbolic Manipulation Understanding with Enriched Semantic Event Chains
arXiv:2604.21053v1 Announce Type: cross Abstract: 人間環境で動作するロボティクスシステムは、物体の相互作用が時間とともにどのように変化するかを、現在どのような操作が実行されているかを、また次にどのような操作が行われうるかを推論する必要があります。古典的な拡張された構造化意味的イベントチェーン(eSEC)は、操作を解釈可能な関係記述として提供します...
Original: arXiv:2604.21053v1 Announce Type: cross Abstract: Robotic systems operating in human environments must reason about how object interactions evolve over time, which actions are currently being perform...
ハイドラウリックシミュレーションを用いたWupper流域の氾濫ハザードマッピングのための深い U-Net フレームワーク
A Deep U-Net Framework for Flood Hazard Mapping Using Hydraulic Simulations of the Wupper Catchment
arXiv:2604.21028v1 発表タイプ: クロス 要旨: 世界の洪水事象の頻度と深刻さの増加は、迅速かつ信頼性の高い洪水予報ツールの開発の必要性を浮き彫りにしました。このプロセスは伝統的に、計算コストの高いハイドラウリックシミュレーションに依存してきました。本研究では、水曜を網状に正確かつ効率的に予測するために、U-Net アーキテクチャ、パッチ生成、そしてデータ処理を最適化する一連の実...
Original: arXiv:2604.21028v1 Announce Type: cross Abstract: The increasing frequency and severity of global flood events highlights the need for the development of rapid and reliable flood prediction tools. Th...
PanGuide3D: 確率論的膵臓条件付けと変換器ボトルネックを用いた、コホート移動に堅牢な膵癌分割
PanGuide3D: Cohort-Robust Pancreas Tumor Segmentation via Probabilistic Pancreas Conditioning and a Transformer Bottleneck
arXiv:2604.20981v1 Announce Type: cross 抽象要旨:対比増強計算断層写真(CT)における膵癌の分割は臨床的に重要でありながら技術的に困難です。病変はしばしば小さく、異質性があり、周囲の軟部組織と容易に混同され、そのうえ、あるコホートで良好な性能を示すモデルはコホートシフトに対して性能が低下しやすいという課題が存在します。当研究の目的は、モデルアーキテクチャを...
Original: arXiv:2604.20981v1 Announce Type: cross Abstract: Pancreatic tumor segmentation in contrast-enhanced computed tomography (CT) is clinically important yet technically challenging: lesions are often sm...
AttentionBender: クロス・アテンションの操作を用いたビデオ拡散トランスフォーマーにおけるクリエイティブ・プローブ
AttentionBender: Manipulating Cross-Attention in Video Diffusion Transformers as a Creative Probe
arXiv:2604.20936v1 発表タイプ:cross アブストラクト: 私たちは、ビデオ拡散トランスフォーマーのクロス・アテンション(Cross-Attention)を操作し、アーティストがブラックボックスであるビデオ生成の内部機構を探究するのを助けるツールとして AttentionBender を提示します。生成された出力はますます実写に近いようになっていますが、プロンプトに基づく制御の...
Original: arXiv:2604.20936v1 Announce Type: cross Abstract: We present AttentionBender, a tool that manipulates cross-attention in Video Diffusion Transformers to help artists probe the internal mechanics of b...
AITP: マルティモーダル大規模言語モデルを用いた交通事故責任割当
AITP: Traffic Accident Responsibility Allocation via Multimodal Large Language Models
arXiv:2604.20878v1 Announce Type: cross 摘要:マルチモーダル大規模言語モデル(MLLM)は、交通事故検出(TAD)および交通事故理解(TAU)において驚くべき進歩を遂げています。しかし、既存の研究は主に事故映像の記述と解釈に焦点を当てており、より深い因果推論と法的知識の統合に余地を残しています。交通事故責任割当(TARA)は、道路交通法の根拠に基づく多段階推...
Original: arXiv:2604.20878v1 Announce Type: cross Abstract: Multimodal Large Language Models (MLLMs) have achieved remarkable progress in Traffic Accident Detection (TAD) and Traffic Accident Understanding (TA...
Robust Test-time Video-Text Retrieval: Benchmarking and Adapting for Query Shifts
arXiv:2604.20851v1 Announce Type: cross Abstract: 現代のビデオテキスト検索 (VTR) モデルは、分布内ベンチマークで優れている一方で、トレーニングドメインと異なるデータ分布を持つ現実世界のクエリシフトに対して極めて脆弱です。これにより、性能が劇的に低下します。既存の画像に焦点を当てた強靭性ソリューションは、これらのシフトに内在する複雑な空間時間動...
Original: arXiv:2604.20851v1 Announce Type: cross Abstract: Modern video-text retrieval (VTR) models excel on in-distribution benchmarks but are highly vulnerable to real-world query shifts, where the distribu...
Seeing Fast and Slow: Learning the Flow of Time in Videos
arXiv:2604.21931v1 Announce Type: new 摘 要:動画が速けられたのか、遅けられたのかをどのように区別できるか?異なる速度の動画を生成できるか?動画は近代コンピュータビジョン研究の中心となる存在であったが、時間の流れの知覚や制御についてはほとんど注目されてこなかった。本稿では、時間を手がかり可能な視覚的概念として研究し、動画の時間の流れについて論じ・操作するための...
Original: arXiv:2604.21931v1 Announce Type: new Abstract: How can we tell whether a video has been sped up or slowed down? How can we generate videos at different speeds? Although videos have been central to m...
視覚なしでの認識:ウェアラブル IMU から行う 4D 人間・シーン理解
Seeing Without Eyes: 4D Human-Scene Understanding from Wearable IMUs
arXiv:2604.21926v1 Announce Type: new 要約:人間の活動とその周囲環境を理解するためには通常視覚認識が依拠されますが、カメラはプライバシー、安全性、効率性、そしてスケーラビリティの面で恒久的な課題を提起しています。我々は代替案としての、視覚なしでの 4D 認識を探求しています。その目的は、日常生活のウェアラブルセンサーから純粋に人間の動きと 3D シーンレイアウ...
Original: arXiv:2604.21926v1 Announce Type: new Abstract: Understanding human activities and their surrounding environments typically relies on visual perception, yet cameras pose persistent challenges in priv...
Omni モデルにおけるコンテキストアンラリング
Context Unrolling in Omni Models
arXiv:2604.21921v1 発表型:新しい 要約: 私たちは、テキスト、画像、動画、3D 幾何学、および潜在表現を含む多様なモーダルにネイティブにトレーニングされた統一的多モーダルモデルである Omni を提示します。このようなトレーニングは、コンテキストアンラリングを可能にし、モデルが予測を生産する前に複数のモーダル表現間で明示的に推理することを可能にします。このプロセスは、補完的な情...
Original: arXiv:2604.21921v1 Announce Type: new Abstract: We present Omni, a unified multimodal model natively trained on diverse modalities, including text, images, videos, 3D geometry, and hidden representat...
Vista4D: 4Dポイントクラウドを用いたビデオの再撮影
Vista4D: Video Reshooting with 4D Point Clouds
arXiv:2604.21915v1 Announce Type: new Abstract: 私たちは、入力ビデオとターゲットカメラを 4D ポイントクラウドに基づいてアンカーする堅牢かつ柔軟なビデオ再撮影フレームワークである Vista4D を提案します。具体的には、入力ビデオに基づき、我々の手法は異なるカメラ軌道と視点からシーンを再合成します。既存のビデオ再撮影手法は、現実世界の動的ビデオの...
Original: arXiv:2604.21915v1 Announce Type: new Abstract: We present Vista4D, a robust and flexible video reshooting framework that grounds the input video and target cameras in a 4D point cloud. Specifically,...
プロンプトが視覚を凌駕する時:LVLM におけるプロンプト誘発的な虚構 HalluScope による調査と解決策
When Prompts Override Vision: Prompt-Induced Hallucinations in LVLMs
arXiv:2604.21911v1 発表 タイプ:新規 摘要:大規模視覚言語モデル(LVLM)の能力に対する顕著な進歩にもかかわらず、これらのシステムは、視覚入力を土台としなかった出力である虚構(hallucinations)に対して依然として脆弱です。先行研究では、LVLM における虚構の原因が、視覚バックボーンの制約や言語成分の優位性など様々な要因に起因すると見なされてきましたが、これらの要...
Original: arXiv:2604.21911v1 Announce Type: new Abstract: Despite impressive progress in capabilities of large vision-language models (LVLMs), these systems remain vulnerable to hallucinations, i.e., outputs t...
人間と機械の視覚における方向性混乱は、誤分類の方向性を通過して、誤分類頻度では見えない発散する帰納的バイアスを浮き彫りにする
Directional Confusions Reveal Divergent Inductive Biases Through Rate-Distortion Geometry in Human and Machine Vision
arXiv:2604.21909v1 Announce Type: new 要約:人間と最新の視覚モデルは、分類精度が似ていますが、系一的な種類の Mistake(誤り)を行います。彼らの誤りの頻度ではなく、誰が誰と誤って認識されるのか、そしてどの方向へ混乱するかにおいて異なります。我々は、これらの方向性混乱が、精度のみに見えない別の発散する帰納的バイアスを明らかにしていることを示します。12 ...
Original: arXiv:2604.21909v1 Announce Type: new Abstract: Humans and modern vision models can reach similar classification accuracy while making systematically different kinds of mistakes - differing not in ho...