4037 articles
UniGenDet: コエボリューション画像生成と生成画像検出のための統合的な生成・判別フレームワーク
UniGenDet: A Unified Generative-Discriminative Framework for Co-Evolutionary Image Generation and Generated Image Detection
arXiv:2604.21904v1 Announce Type: new Abstract: 近年、画像生成と生成画像検出の両分野において大きな進歩がなされています。この2 つの分野は急速に発展しており、しかしほとんど独立して成長し、それぞれが独自の建築 paradigm を発展させてきました:前者は主に生成ネットワークに依存し、後者は判別フレームワークを好みます。両分野における最近のトレンド...
Original: arXiv:2604.21904v1 Announce Type: new Abstract: In recent years, significant progress has been made in both image generation and generated image detection. Despite their rapid, yet largely independen...
カメラが生成 AI を使用する場合の画像真実性の問題への対応
Addressing Image Authenticity When Cameras Use Generative AI
arXiv:2604.21879v1 Announce Type: new 本稿の要約: 生成 AI (GenAI) メソッドによる写真写実的なカメラ画像の改変能力は、オンラインで共有される画像の真実性に関する意識を高めています。興味深いかつ、当社のカメラで直接撮影された画像は、真実性と忠実さを持つものと見なされます。しかし、カメラの撮影時ハードウェア(具体的には画像信号処理装置 (ISP))への...
Original: arXiv:2604.21879v1 Announce Type: new Abstract: The ability of generative AI (GenAI) methods to photorealistically alter camera images has raised awareness about the authenticity of images shared onl...
物理信号に基づく映像推理のgrounding
Grounding Video Reasoning in Physical Signals
arXiv:2604.21873v1 Announce Type: new Abstract: 物理映像の理解は、単に出来事を正しく名詞化することを超えています。モデルはテキスト的な規則に基づいて、注ぐこと、スライドすること、衝突することについての質問に答えることができるのに、時間の定位や空間の定位において出来事を失敗する可能性があります。我々は、物理映像の理解に向けたgroundedベンチマー...
Original: arXiv:2604.21873v1 Announce Type: new Abstract: Physical video understanding requires more than naming an event correctly. A model can answer a question about pouring, sliding, or collision from text...
Divide-then-Diagnose: Clinician-Inspired コンテキストを織り込む超長期カプセル内視鏡映像へのアプローチ
Divide-then-Diagnose: Weaving Clinician-Inspired Contexts for Ultra-Long Capsule Endoscopy Videos
arXiv:2604.21814v1 Announce Type: new 摘要:カプセル内視鏡(CE)は非侵襲的な消化管スクリーニングを可能にしますが、現在の CE 研究は主にフレームレベルの分類と検出に限定されており、映像レベルの解析は未探求のままです。このギャップを埋めるため、我々は臨床的に意味のある発見を覆い、それらの証拠フレームから正確な診断を作成することを必要とする新しいタスクである...
Original: arXiv:2604.21814v1 Announce Type: new Abstract: Capsule endoscopy (CE) enables non-invasive gastrointestinal screening, but current CE research remains largely limited to frame-level classification a...
先验なしマルチスケールスーパー・レゾリューション
Multiscale Super Resolution without Image Priors
arXiv:2604.21810v1 発表タイプ:新規 概要:我々は、変換下におけるスーパー・レゾリューション問題の曖昧さに対応する。異なるスケールの低解像度の画像の組み合わせを、スーパー・レゾリューション問題を良条件にすることを示す。このようなスケールの違いは、異なるピクセルサイズを持つセンサーを用いて実現できる(ここでは示されている)か、あるいは光学倍率の変化(ズームレンズを使用する場合など...
Original: arXiv:2604.21810v1 Announce Type: new Abstract: We address the ambiguities in the super-resolution problem under translation. We demonstrate that combinations of low-resolution images at different sc...
TEMA: 画像をアンカーとし、テキストを追って、マルチ・モディフィケーション組画像検索
TEMA: Anchor the Image, Follow the Text for Multi-Modification Composed Image Retrieval
arXiv:2604.21806v1 Announce Type: new Abstract: 組画像検索 (CIR) は、参照画像と修正テキストからなるマルチモーダルクエリを使用して目標画像を取得可能にする、重要な画像検索のパラダイムです。CIR に関する研究は著しい進歩を遂げましたが、既存のセットアップは単純な修正テキストに依存しており、これは通常、限られた範囲の顕著な変化のみをカバーするもの...
Original: arXiv:2604.21806v1 Announce Type: new Abstract: Composed Image Retrieval (CIR) is an important image retrieval paradigm that enables users to retrieve a target image using a multimodal query that con...
SyMTRS:空中写真における深度推定、ドメイン適応、およびスーパーレゾリューションのための多タスク合成ベンチマークデータセット
SyMTRS: Benchmark Multi-Task Synthetic Dataset for Depth, Domain Adaptation and Super-Resolution in Aerial Imagery
arXiv:2604.21801v1 Announce Type: new 要約:リモートセンシング用の深層学習の最近の進展は、大規模なアンノテートされたデータセットに依存していますが、幾何学的、放射度的、およびマルチドメインのタスクにおいて、高品質な真の地面データ(ground truth)を取得することはいまだ高コストであり、しばしば不可能です。特に、正確な深度アノテーション、制御された照明的...
Original: arXiv:2604.21801v1 Announce Type: new Abstract: Recent advances in deep learning for remote sensing rely heavily on large annotated datasets, yet acquiring high-quality ground truth for geometric, ra...
コードブックから VLM へ:気候変動に関するソーシャルメディア上の自律的視覚的ディスコース解析の評価
From Codebooks to VLMs: Evaluating Automated Visual Discourse Analysis for Climate Change on Social Media
arXiv:2604.21786v1 Announce Type: new 摘要:ソーシャルメディアプラットフォームは気候変動コミュニケーションの主要な場となり、システム的に解析すれば公衆の関心を動員するコミュニケーション戦略や、それが機能しない戦略を明らかにできる大量の画像と投稿を生成しています。本研究では、コンピュータビジョン手法をソーシャルメディアのディスコース解析に応用する方法を評価し、そ...
Original: arXiv:2604.21786v1 Announce Type: new Abstract: Social media platforms have become primary arenas for climate communication, generating millions of images and posts that - if systematically analysed ...
Reshoot-Anything: 在野動画の再撮影用の自己教師ありモデル
Reshoot-Anything: A Self-Supervised Model for In-the-Wild Video Reshooting
arXiv:2604.21776v1 Announce Type: new 【要約】非刚体シーンの再撮影における精密なカメラ制御は、非剛体シーンのためのペア付けられたマルチビューデータの著しい不足に阻害されています。当チームは、インターネット規模のモノクローマ映像を活用できるスケールが大きい自己教師ありフレームワークでこの限界を克服しました。当社の主要な貢献は、ソースビデオ、幾何学的アンカー、そ...
Original: arXiv:2604.21776v1 Announce Type: new Abstract: Precise camera control for reshooting dynamic videos is bottlenecked by the severe scarcity of paired multi-view data for non-rigid scenes. We overcome...
Source へ戻る:ドメイン補償によるオープンセット継続的テストタイム適応
Back to Source: Open-Set Continual Test-Time Adaptation via Domain Compensation
arXiv:2604.21772v1 Announce Type: new 摘要:テストタイム適応(TTA)は、推論時にトレーニングドメインとテストドメイン間の分布シフトを緩和することを目的としています。ただし、既存の TTA メソッドは、モデルが継続的に変化するドメインと、同時に未知のセマンティッククラスが出現するという現実的なシナリオにおいて不十分であり、私たちはこれをオープンセット継続的テス...
Original: arXiv:2604.21772v1 Announce Type: new Abstract: Test-Time Adaptation (TTA) aims to mitigate distributional shifts between training and test domains during inference time. However, existing TTA method...
解釈可能な顔の動的挙動:ディープフェイクの行動的特徴と受容的特徴の痕跡
Interpretable facial dynamics as behavioral and perceptual traces of deepfakes
arXiv:2604.21760v1 Announce Type: new 要約: ディープフェイク検出研究は、強力なベンチマーク性能を有しつつも、真の顔の動きと操作された顔の動きを区別する何物かを限られた洞察しか提供する機械学習アプローチへと大きく収束しました。本稿は、顔の動的挙動の生体行動的特徴に基づく解釈可能な代替アプローチを提示し、計算機検出戦略と人間の受容判断の関係性を評価します。我々は...
Original: arXiv:2604.21760v1 Announce Type: new Abstract: Deepfake detection research has largely converged on deep learning approaches that, despite strong benchmark performance, offer limited insight into wh...
Ramen: 能動的サンプル選択による視覚言語モデルにおける堅牢なテストタイム適応
Ramen: Robust Test-Time Adaptation of Vision-Language Models with Active Sample Selection
arXiv:2604.21728v1 発表型:新規 要約: CLIP などの事前学習された視覚言語モデルは強力なゼロショット一般化能力を示しますが、分布のシフトに対して依然として脆弱です。テストタイム適応は、ソースデータやターゲットラベルへのアクセスをなしながら推論中にモデルを適応させることで、このようなシフトを処理する実用的な手法を提供します。ただし、既存の手法は、テストサンプルが単一の一貫性...
Original: arXiv:2604.21728v1 Announce Type: new Abstract: Pretrained vision-language models such as CLIP exhibit strong zero-shot generalization but remain sensitive to distribution shifts. Test-time adaptatio...
人間と AI による監督下で精緻なビデオ言語の構築
Building a Precise Video Language with Human-AI Oversight
arXiv:2604.21718v1 発表タイプ:新規 要旨: ビデオ・ラングウェアモデル(VLM)は、自然言語を通じて動的な視覚世界を推理し学ぶ。当社は、拡大可能な監督を可能にする開かれたデータセット、ベンチマーク、およびレシピの套件を導入し、精緻なビデオキャプション化を実現した。まず、映画人などのプロのビデオクリエイターと共同開発された数百の慎重に定義された視覚プリミティブに基づき、主役、シー...
Original: arXiv:2604.21718v1 Announce Type: new Abstract: Video-language models (VLMs) learn to reason about the dynamic visual world through natural language. We introduce a suite of open datasets, benchmarks...
3D 可視幾何推定における決定的要因のパワーを解放する
Unlocking the Power of Critical Factors for 3D Visual Geometry Estimation
arXiv:2604.21713v1 発表型:new 摘要:前向可視幾何推定は最近、急速な進展を遂げています。しかし、重要な課題は残っています:マルチフレームモデルは通常、クロスフレームの一貫性を生み出しますが、シングルフレーム精度では強力な単フレーム手法に劣ることが多いです。この観察は、モデル性能を駆動する決定的要因を厳密なアブロアクション研究を通じて調査する我々の体系的な探求を動機付け、いくつ...
Original: arXiv:2604.21713v1 Announce Type: new Abstract: Feed-forward visual geometry estimation has recently made rapid progress. However, an important gap remains: multi-frame models usually produce better ...
Discriminative-Generative Synergy for Occlusion Robust 3D Human Mesh Recovery
arXiv:2604.21712v1 発表 タイプ: 新規 要約:単眼 RGB 画像から 3D ヒューマンメッシュを回復させることは、ダウンストリームアプリケーションのために解剖学的に妥当な 3D ヒューマンモデルを推定することを目的としていますが、部分的あるいは深刻な奥視が発生すると依然として困難です。回帰に基づく手法は効率的ですが、制約のないシナリオではよくできない結果または不正確な結果を出力...
Original: arXiv:2604.21712v1 Announce Type: new Abstract: 3D human mesh recovery from monocular RGB images aims to estimate anatomically plausible 3D human models for downstream applications, but remains chall...
ビデオコピー検出ための効率的なロジックゲートネットワーク
Efficient Logic Gate Networks for Video Copy Detection
arXiv:2604.21694v1 発表タイプ:新しい 要約:ビデオコピー検出は、多様な視覚的な歪み下で堅実な類似度推定を行うことに加え、非常に大規模に動作する必要があります。 although 深度学習ニューラルネットワークは強力な性能を実現していますが、計算コストと記述子サイズが、高Throughput システムにおける実用的な展開を制限します。この研究では、従来の浮動小数点特徴抽出子をコン...
Original: arXiv:2604.21694v1 Announce Type: new Abstract: Video copy detection requires robust similarity estimation under diverse visual distortions while operating at very large scale. Although deep neural n...
WorldMark: インタラクティブ映像ワールドモデルのための統合ベンチマークスイート
WorldMark: A Unified Benchmark Suite for Interactive Video World Models
arXiv:2604.21686v1 Announce Type: new 要約:Genie、YUME、HY-World、Matrix-Game などのインタラクティブ映像生成モデルは急速に進化していますが、各モデルは独自のベンチマーク、私的なシーンおよび軌跡で評価され、公平な横モデル比較は不可能です。既存の公開ベンチマークでは、軌跡エラー、美的スコア、VLM(視覚言語モデル)に基づく判断など有...
Original: arXiv:2604.21686v1 Announce Type: new Abstract: Interactive video generation models such as Genie, YUME, HY-World, and Matrix-Game are advancing rapidly, yet every model is evaluated on its own bench...
Sapiens2
arXiv:2604.21681v1 発表タイプ:新規 要約:我々は、人類中心の視覚に焦点を当てて、汎用性、多機能性、および高解像度出力を特徴とする高解像度トランフォーマーのモデルファミリー、Sapiens2 を提示します。我々のモデルサイズは、04 億から 50 億のパラメータにわたります。ネイティブの 1K 解像度と、4K をサポートする階層型バリエーションを含む、Sapiens2 はその先駆...
Original: arXiv:2604.21681v1 Announce Type: new Abstract: We present Sapiens2, a model family of high-resolution transformers for human-centric vision focused on generalization, versatility, and high-fidelity ...
Encoder-Free Human Motion Understanding via Structured Motion Descriptions
arXiv:2604.21668v1 Announce Type: new 摘要: テキストベースの大型言語モデル(LLM)の世界知識や推論能力は急速に進化していますが、現在の人形動作理解へのアプローチ、包括質問応答やキャプション化まで含めて、これらの能力を十分に活用していません。既存の LLM ベースの方法は、通常、LLM の埋め込み空間に人形特徴を投射する専用エンコーダーを通じて人形と言語の照...
Original: arXiv:2604.21668v1 Announce Type: new Abstract: The world knowledge and reasoning capabilities of text-based large language models (LLMs) are advancing rapidly, yet current approaches to human motion...
因果分離に基づく完全参照画像品質評価
Causal Disentanglement for Full-Reference Image Quality Assessment
arXiv:2604.21654v1 発表 タイプ:新 要約:既存のディープネットワークに基づく完全参照画像品質評価(FR-IQA)モデルは、通常、参照画像と歪み画像のディープ特徴をペアライズ比較することで動作します。この論文では、この課題を異なる視点からアプローチし、因果推論と結合されていない表現学習に基づいた新しい FR-IQA パラダイムを提案します。通常の特徴比較ベースの FR-IQA モ...
Original: arXiv:2604.21654v1 Announce Type: new Abstract: Existing deep network-based full-reference image quality assessment (FR-IQA) models typically work by performing pairwise comparisons of deep features ...