4037 articles

トレーニングとデプロイメントのギャップを架ける：有効なクァンタライズ・アウェアな画像增強のためのゲート付きエンコーディングとマルチスケールレファインメント

Bridging the Training-Deployment Gap: Gated Encoding and Multi-Scale Refinement for Efficient Quantization-Aware Image Enhancement

arXiv:2604.21743v1 Announce Type: cross Abstract: モバイルデバイス向けの画像增強モデルは、高い出力品質とモバイルハードウェアが要求する高速処理速度のバランスをとることに苦労しています。最近の深層学習モデルは、低品質のモバイル写真を高品質な画像に変えることができますが、実際のモバイル電話で使用するために低い精度の形式に変換されると、その性能はしばし...

Original: arXiv:2604.21743v1 Announce Type: cross Abstract: Image enhancement models for mobile devices often struggle to balance high output quality with the fast processing speeds required by mobile hardware...

トレーニングとデプロイメントのギャップを架ける：有効なクァンタライズ・アウェアな画像增強のためのゲート付きエンコーディングとマルチスケールレファインメント

StyleID: stylization に依存しない顔の同一性認識のための感知意識データセットと指標

DiffNR: 拡散モデル活用によるスカラー場・3D 高斯関数最適化手法の提案：視部数が少ない 3D 断層画像再構成におけるアートの抑制

強化学習には必要な幾何学的盲点がある：理論、帰結と最小限の修復

記号によるGroundingが、抽象視覚推論における表現論的ボトルネックを明らかにする

単一チャートを超えて：マルチチャートにおける質問応答のベンチマーク

Measure Twice, Click Once: Co-evolving Proposer and Visual Critic via Reinforcement Learning for GUI Grounding

ARFBench: ソフトウェアインシデント対応における時系列質問回答能力のベンチマーク

拡張された構造化意味的イベントチェーンを用いた神経記号制操作理解

ハイドラウリックシミュレーションを用いたWupper流域の氾濫ハザードマッピングのための深い U-Net フレームワーク

PanGuide3D: 確率論的膵臓条件付けと変換器ボトルネックを用いた、コホート移動に堅牢な膵癌分割

AttentionBender: クロス・アテンションの操作を用いたビデオ拡散トランスフォーマーにおけるクリエイティブ・プローブ

AITP: マルティモーダル大規模言語モデルを用いた交通事故責任割当

Robust Test-time Video-Text Retrieval: Benchmarking and Adapting for Query Shifts

Seeing Fast and Slow: Learning the Flow of Time in Videos

視覚なしでの認識：ウェアラブル IMU から行う 4D 人間・シーン理解

Omni モデルにおけるコンテキストアンラリング

Vista4D: 4Dポイントクラウドを用いたビデオの再撮影

プロンプトが視覚を凌駕する時：LVLM におけるプロンプト誘発的な虚構 HalluScope による調査と解決策

人間と機械の視覚における方向性混乱は、誤分類の方向性を通過して、誤分類頻度では見えない発散する帰納的バイアスを浮き彫りにする