4037 articles
カオサル・ブートストラップ化されたアライメント:無監督動画ベースの可視・赤外線 Person Re-Identification
Causal Bootstrapped Alignment for Unsupervised Video-Based Visible-Infrared Person Re-Identification
arXiv:2604.15631v1 Announce Type: new 摘 要:全日監視において、時間情報は静的画像の情報を超える追加の示唆を提供する重要な手法である VVI-ReID です。しかし、既存のアプローチは高価なクロスモーダルアノテーションを前提とする完全な监督学習に依存しており、スケーラビリティの限界があります。この問題を解決するために、我々はラベルなし動画トラックレットから直接...
Original: arXiv:2604.15631v1 Announce Type: new Abstract: VVI-ReID is a critical technique for all-day surveillance, where temporal information provides additional cues beyond static images. However, existing ...
SIMMER:MLLM ベースのエンベッディングを用いたクロスモーダリティ食事画像からレシピへの検索
SIMMER: Cross-Modal Food Image--Recipe Retrieval via MLLM-Based Embedding
arXiv:2604.15628v1 Announce Type: new Abstract:食事画像とレシピテキストとのクロスモーダリティ検索は、栄養管理、食事記録、料理補助などの応用があり、重要なタスクである。既存の手法は、主に画像エンコーダーとテキストエンコーダーを個別に持つデュアルエンコーダーアーキテクチャに依存しており、 モダリティ間のセマンティックギャップを橋渡しするために、複雑な対齐...
Original: arXiv:2604.15628v1 Announce Type: new Abstract: Cross-modal retrieval between food images and recipe texts is an important task with applications in nutritional management, dietary logging, and cooki...
AdaVFM: LLM に案内された実行を介したエッジ知能のための適応型ビジョンファウンデーションモデル
AdaVFM: Adaptive Vision Foundation Models for Edge Intelligence via LLM-Guided Execution
arXiv:2604.15622v1 Announce Type: new アブストラクト: 言語対照的なビジョンファウンデーションモデル(VFM)は、常時稼働の文脈型 AI のための多様な視覚的理解を可能にしますが、厳格な遅延と電力制約によりエッジデバイスへの展開が困難です。私たちは、シーンコンテキストとタスク複雑さに基づいて実行を動的に調整する、効率的なデバイス上で推理を可能にする適応型フレー...
Original: arXiv:2604.15622v1 Announce Type: new Abstract: Language-aligned vision foundation models (VFMs) enable versatile visual understanding for always-on contextual AI, but their deployment on edge device...
CLIMB: Mamba ベースの潜在拡散モデルと高斯準同化エンコーダを用いた制御可能な長期的脳画像生成
CLIMB: Controllable Longitudinal Brain Image Generation using Mamba-based Latent Diffusion Model and Gaussian-aligned Autoencoder
arXiv:2604.15611v1 発表タイプ:新しい 要旨:潜在拡散モデル(LDM)は、医療画像生成において強力な生成モデルとして台頭しており、高品質な脳磁気共鳴画像(MRI)スキャンの合成を可能にしました。特に、患者の脳の経過変化を予測することは、早期介入、予後予測、および治療計画の確立に役立ちます。本研究では、時系列変化のモデル링のための進化したフレームワークである「CLIMB(Contr...
Original: arXiv:2604.15611v1 Announce Type: new Abstract: Latent diffusion models have emerged as powerful generative models in medical imaging, enabling the synthesis of high quality brain magnetic resonance ...
CXR-LT 2026 チャレンジ:複数センターの長尾分布およびゼロショット胸 X 線分類
CXR-LT 2026 Challenge: Multi-Center Long-Tailed and Zero Shot Chest X-ray Classification
arXiv:2604.15555v1 発表 タイプ:新規 摘要:胸 X 線(CXR)の解釈は、病態の長尾分布および臨床環境のオープンワールド的な性質によって阻害されています。既存の評価基準は単一機関のクローズドセットクラスに依存しており、稀な疾患の有病率や新しい所見の出現を捉えていません。これを解決するために、CXR-LT チャレンジを提案します。初回のイベントである CXR-LT 2023 は...
Original: arXiv:2604.15555v1 Announce Type: new Abstract: Chest X-ray (CXR) interpretation is hindered by the long-tailed distribution of pathologies and the open-world nature of clinical environments. Existin...
UA-Net: TRISO 画像の半導体分割に適用される不確実性認識ネットワーク
UA-Net: Uncertainty-Aware Network for TRISO Image Semantic Segmentation
arXiv:2604.15542v1 発表タイプ:新 要旨:三元等方(TRISO)コーティング粒子燃料は、高温中性子照射下で寸法変化と化学反応を経る。照射後の材料分析は、コーティングの整合性や裂变元素の保持など燃料性能に寄与するプロセスを理解するために役立つか、従来の手法では専門家による数千枚の断面図を手動で評価する必要がある。本研究では、TRISO 燃料のマイクログラフ内の 5 つの特性領域を分...
Original: arXiv:2604.15542v1 Announce Type: new Abstract: Tristructural isotropic (TRISO)-coated particle fuels undergo dimensional changes and chemical reactions during high-temperature neutron irradiation. P...
High-Quality Image Generation のための Frequency-Aware Flow Matching
Frequency-Aware Flow Matching for High-Quality Image Generation
arXiv:2604.15521v1 Announce Type: new 摘要: フローマッチングモデルは、ガウスノイズを段階的に追加する破損プロセスを逆転させることにより、リアルな画像生成の強力な枠組みとして台頭してきました。しかし、ノイズが潜在領域に注入されるため、その影響は異なる周波数成分に対して非均一です。その結果、推論時にフローマッチングモデルは低周波数成分(全体構造)を早期に生成し...
Original: arXiv:2604.15521v1 Announce Type: new Abstract: Flow matching models have emerged as a powerful framework for realistic image generation by learning to reverse a corruption process that progressively...
(1D) オーダリングトークンによる効率良いテストタイム検索
(1D) Ordered Tokens Enable Efficient Test-Time Search
arXiv:2604.15453v1 Announce Type: new Abstract: トークナライゼーションは、自己回帰型 (AR) 生成モデルの重要な構成要素であり、生のデータをモデリング用の管理しやすい単位に変換します。通常、トークンは局所的な情報(画像のピクセル領域やテキストの単語部分など)を表し、AR 生成はこれらのトークンを固定された順序で予測します。生成をテストタイム検索(...
Original: arXiv:2604.15453v1 Announce Type: new Abstract: Tokenization is a key component of autoregressive (AR) generative models, converting raw data into more manageable units for modeling. Commonly, tokens...
Weak-to-Strong Knowledge Distillation: 強力学習モデルのトレーニングを加速する
Weak-to-Strong Knowledge Distillation Accelerates Visual Learning
arXiv:2604.15451v1 発表タイプ:新規 要約:大規模なビジュアル学習は、トレーニングコストに制約されつつあります。既存の知識蒸馏(Knowledge Distillation)手法は、強力な教師から弱い生徒モデルへ情報を移すことで圧縮や最終精度向上を目的としています。しかし、本論文では、強力な生徒モデルのトレーニングを加速するために、逆に弱い教師から強力な生徒へ情報を移す蒸馏手法...
Original: arXiv:2604.15451v1 Announce Type: new Abstract: Large-scale visual learning is increasingly limited by training cost. Existing knowledge distillation methods transfer from a stronger teacher to a wea...
ズーム一貫性:マルチステップビジュアルグラウンディングパイプラインにおける無料の信頼度シグナル
Zoom Consistency: A Free Confidence Signal in Multi-Step Visual Grounding Pipelines
arXiv:2604.15376v1 発表タイプ:新規 抜粋:マルチステップズームインパイプラインは GUI グランディングに広く使われているが、その中間予測は座標再変換後に通常捨て棄てられる。我々は、これらの中間出力に、モデルのステップ 2 予測と切り出しセンターの距離である「ズーム一貫性」という有用な信頼度シグナルが無料で含まれていることを観察した。ログ確率やトークンレベルの不確実性と違い、ズ...
Original: arXiv:2604.15376v1 Announce Type: new Abstract: Multi-step zoom-in pipelines are widely used for GUI grounding, yet the intermediate predictions they produce are typically discarded after coordinate ...
POP: Prefill-Only Pruning for Efficient Large Model Inference
arXiv:2602.03295v2 Announce Type: replace-cross 要約:大規模言語モデル (LLMs) とビジョン・ランゲージモデル (VLMs) は驚異的な能力を示しました。しかし、その展開は重要な計算コストによって妨げられています。既存の構造化剪定法はハードウェア効率に優れていますが、精度の低下を招くことがよくあります。本稿では、この失敗はプリフィルとデコードの二...
Original: arXiv:2602.03295v2 Announce Type: replace-cross Abstract: Large Language Models (LLMs) and Vision-Language Models (VLMs) have demonstrated remarkable capabilities. However, their deployment is hinder...
LLMOrbit: 大規模言語モデルの円形分類体系 - スケーリングの壁からエージェント AI システムまで
LLMOrbit: A Circular Taxonomy of Large Language Models -From Scaling Walls to Agentic AI Systems
arXiv:2601.14053v2 Announce Type: replace-cross 摘要:人工知能の分野は、基礎となる Transformer アーキテクチャから、人間レベルのパフォーマンスに接近する推論可能なシステムへと革命を起こしました。本研究では、2019 年から 2025 年までの大規模言語モデル(LLM)のランドスケープをナビゲートする包括的な円形分類体系「LLMOrbit」...
Original: arXiv:2601.14053v2 Announce Type: replace-cross Abstract: The field of artificial intelligence has undergone a revolution from foundational Transformer architectures to reasoning-capable systems appr...
暗記から創造性まで:LLM が新しいニューラルアーキテクチャを設計する
From Memorization to Creativity: LLM as a Designer of Novel Neural Architectures
arXiv:2601.02997v2 Announce Type: replace-cross Abstract: 大規模言語モデル(LLM)はコードシンセシスで卓越しますが、ニューラルアーキテクチャ設計における能力——文法的信頼性、パフォーマンス、構造的新鮮性のバランス——は未だ十分に探求されていません。本稿では、NNGPT フレームワーク内の閉ループアーキテクチャシンセシスパイプラインを提示...
Original: arXiv:2601.02997v2 Announce Type: replace-cross Abstract: Large language models (LLMs) excel in program synthesis, yet their capacity for neural architecture design -- balancing syntactic reliability...
合成超音波画像拡張に強化された連合 Breast Cancer 検出
Federated Breast Cancer Detection Enhanced by Synthetic Ultrasound Image Augmentation
arXiv:2506.23334v3 Announce Type: replace-cross 本文は、連合学習について述べます。連合学習は、機密性の高い患者データを共有することなしに、機関を超えて深度学習モデルの協調的なトレーニングを可能にします。しかし、そのパフォーマンスは、小さなデータセットや非独立同様に分布したデータにしばしば制限され、モデルの汎化性能を損ないます。本研究では、乳腺超音波分...
Original: arXiv:2506.23334v3 Announce Type: replace-cross Abstract: Federated learning enables collaborative training of deep learning models across institutions without sharing sensitive patient data. However...
KnowRL: 事実性を追求する知識を活用した強化学習に関する探索
KnowRL: Exploring Knowledgeable Reinforcement Learning for Factuality
arXiv:2506.19807v4 Announce Type: replace-cross 要約:大規模言語モデル(LLM)、特にゆっくり思考型モデルは、推論中に知識の境界を正確に認識できないことにより、事実関係が誤っている内容(ハルシネーション)を出力する傾向が深刻である。強化学習(RL)が複雑な推論能力を向上させる可能性はあるものの、その成果指向的な報酬機制は推論過程に事実的監督を与えてお...
Original: arXiv:2506.19807v4 Announce Type: replace-cross Abstract: Large Language Models (LLMs), particularly slow-thinking models, often exhibit severe hallucination, outputting incorrect content due to an i...
Transformer 型アーキテクチャを用いた前立腺腺体分割の精度向上
Improving Prostate Gland Segmentation Using Transformer based Architectures
arXiv:2506.14844v2 発表型: 代替クロス 摘要:T2 重断層MRI画像を用いた前立腺解剖の自動分割は、読者間の変動性およびサイト間ドメインシフトという課題に直面している。本研究では、Transformer モデルがそのような多様性下でも精度を維持できるか調査する。546 体積の MRI(T2 重断層)データセットを用い、2 つの独立した専門家が注釈化したデータに基づき、UNETR...
Original: arXiv:2506.14844v2 Announce Type: replace-cross Abstract: Inter reader variability and cross site domain shift challenge the automatic segmentation of prostate anatomy using T2 weighted MRI images. T...
拡散モデルの診断と改善における最適な損失値の推定
Diagnosing and Improving Diffusion Models by Estimating the Optimal Loss Value
arXiv:2506.13763v2 Announce Type: replace-cross 要旨:拡散モデルは生成モデル化において著しい成功を収めた。安定した訓練にもかかわらず、拡散モデルの損失は絶対的なデータ適合の質を示唆していない。なぜなら、その最適値は通常ゼロではないが不明であり、大規模な最適損失と不十分なモデル容量の区別が混乱を引き起こしているため。本研究では、拡散モデルの診断と改善に...
Original: arXiv:2506.13763v2 Announce Type: replace-cross Abstract: Diffusion models have achieved remarkable success in generative modeling. Despite more stable training, the loss of diffusion models is not i...
データや最適化なしにおける最大脳損傷:符号ビットのフリップによるニューラルネットワークの破壊
Maximal Brain Damage Without Data or Optimization: Disrupting Neural Networks via Sign-Bit Flips
arXiv:2502.07408v2 Announce Type: replace-cross 要約:深層ニューラルネットワーク(DNN)は、いくつかのパラメータのビットをフリップすることだけでも Catastrophically 破壊されてしまいます。我々は、データ不要かつ最適化不要であるため、臨界パラメータを検出できる「Deep Neural Lesion (DNL)」を導入し、ランダム入力...
Original: arXiv:2502.07408v2 Announce Type: replace-cross Abstract: Deep Neural Networks (DNNs) can be catastrophically disrupted by flipping only a handful of parameter bits. We introduce Deep Neural Lesion (...
cine MRI におけるフレーム予測と PCA 呼吸運動モデル:オンラインでトレーニングされた再帰ニューラルネットワークとトランスフォーマーの比較
Frame forecasting in cine MRI using the PCA respiratory motion model: comparing recurrent neural networks trained online and transformers
arXiv:2410.05882v3 発表タイプ:置き換えクロス 要旨:呼吸による運動は、放線療法中に胸腹部腫瘍の正確な照射を困難にします。これは、治療システムの遅延により標的場所の不確実性が生じるからです。本工作是は、このような遅延を補償するために胸と肝臓の cine MRI におけるフレーム予測に取り組んでいます。当々は、呼吸運動のパターン変化に適応するためのオンザフライのパラメータ更新を可...
Original: arXiv:2410.05882v3 Announce Type: replace-cross Abstract: Respiratory motion complicates accurate irradiation of thoraco-abdominal tumors during radiotherapy, as treatment-system latency entails targ...
PDF-GS: 頑健な 3D ガウススポットリングのための段階的妨害フィルタリング
PDF-GS: Progressive Distractor Filtering for Robust 3D Gaussian Splatting
arXiv:2604.12580v2 Announce Type: replace 本稿の要旨: 最近の 3D ガウススポットリング(3DGS)の進展により、印象的なリアルタイムフォトリアリスティックレンダリングが可能となっています。しかし、従来のトレーニングパイプラインは入力画像間の完全なマルチビュー一致を内在的に仮定しており、この仮定を違反する妨害要素に感受性が高く、視覚的アークフェクトを引き...
Original: arXiv:2604.12580v2 Announce Type: replace Abstract: Recent advances in 3D Gaussian Splatting (3DGS) have enabled impressive real-time photorealistic rendering. However, conventional training pipeline...