3496 articles
流動制御とマージの統一された密度演算子視座
A Unified Density Operator View of Flow Control and Merging
arXiv:2602.08012v1 発表 タイプ:新規 要旨:最近の大規模なフローモデルおよび拡散モデルの進展により、2 つの基本的なアルゴリズム的な課題が発生した:(i) 事前学習されたフローの制御に基づく報酬適応、および (ii) 複数のモデルの統合、すなわちフローマージ。現在の手法がそれぞれ個別に対処しているのに対し、私たちが両者を極限ケースとして含む統一的な確率空間フレームワークを導入...
Original: arXiv:2602.08012v1 Announce Type: new Abstract: Recent progress in large-scale flow and diffusion models raised two fundamental algorithmic challenges: (i) control-based reward adaptation of pre-trai...
スパースミックス・オブ・エキスパートの台頭:アルゴリズム的基礎から分散アーキテクチャ、および垂直ドメインへの適用へ:包括的レビュー
The Rise of Sparse Mixture-of-Experts:A Survey from Algorithmic Foundations to Decentralized Architectures and Vertical Domain Applications
arXiv:2602.08019v1 発表タイプ:新規 要約:スパースミックス・オブ・エキスパート(MoE)アーキテクチャは、深層学習モデルのパラメータ規模を拡大し、同等の計算コストを維持する強力なアプローチとして進化しました。大型言語モデル(LLM)の重要な分野として、MoE モデルはルーティングネットワークに基づいてエクスパートのサブセットのみを活性化します。このスパース条件計算機機能は、計算...
Original: arXiv:2602.08019v1 Announce Type: new Abstract: The sparse Mixture of Experts(MoE) architecture has evolved as a powerful approach for scaling deep learning models to more parameters with comparable ...
線形アンサンブルサンプリングのシャープ解析
Sharp analysis of linear ensemble sampling
arXiv:2602.08026v1 Announce Type: new 要旨: 我々は、確率的な線形バンディットにおいて標準のガウス擾乱を用いた線形アンサンブルサンプリング(ES)を解析する。我々は、アンサンブルサイズ $m = \Theta(d \log n)$ の場合、ES が高確率で $\tilde O(d^{3/2} \sqrt n)$ のリグレットを達成することを示し、これによりトン...
Original: arXiv:2602.08026v1 Announce Type: new Abstract: We analyse linear ensemble sampling (ES) with standard Gaussian perturbations in stochastic linear bandits. We show that for ensemble size $m=\Theta(d\...
Horizon Imagination: 拡散モデルにおける効率的なオンポリシートレーニング
Horizon Imagination: Efficient On-Policy Training in Diffusion World Models
arXiv:2602.08032v1 Announce Type: new Abstract: 私たちは、再帰的な精度が高まるが制御における効率性の課題に直面している、強化学習用の拡散ベースの世界モデルを調査しました。既存の方法は、推論時にHeavyweightモデルを必要とするか、非常に順序立てた想像に依存しており、どちらも莫大な計算コストを伴います。私たちは、離散確率的政策のためのオンポリシー...
Original: arXiv:2602.08032v1 Announce Type: new Abstract: We study diffusion-based world models for reinforcement learning, which offer high generative fidelity but face critical efficiency challenges in contr...
多様性の利点:比較と評価を結合した効率的なスコアリング
The Benefits of Diversity: Combining Comparisons and Ratings for Efficient Scoring
arXiv:2602.08033v1 公式タイプ:新規発表 要約: 人間に個別的に、あるいは比較的にエンティティを評価させるべきか。この問題は長年の議論の的であった。本研究において、両方の形態の好意思求を組み合わせることの効用は、いずれか一つのみに焦点を当てることよりも上回ることを示す。具体的には、比較と評価の両方のシグナルから学習を可能にする統一的確率的モデルである SCoRa(Scoring ...
Original: arXiv:2602.08033v1 Announce Type: new Abstract: Should humans be asked to evaluate entities individually or comparatively? This question has been the subject of long debates. In this work, we show th...
TAAM: インдукティブ・グラフクラス漸近学習におけるタスク認識による適応的調制度
TAAM:Inductive Graph-Class Incremental Learning with Task-Aware Adaptive Modulation
arXiv:2602.08036v1 Announce Type: new Abstract: グラフ継続的学習 (GCL) はストリーミンググラフデータの課題を解決することを目的としている。しかし、既存の方法は多くの場合、再プレイベースの戦略に依存しており、これはメモリ制約やプライバシーの問題を引き起こすとともに、安定性と可塑性のジレンマを解決する際に困難である。本稿では、軽量でタスク固有のモジ...
Original: arXiv:2602.08036v1 Announce Type: new Abstract: Graph Continual Learning (GCL) aims to solve the challenges of streaming graph data. However, current methods often depend on replay-based strategies, ...
FIRE: 平衡安定性と可塑性に関するフランクニスの等距再初期化
FIRE: Frobenius-Isometry Reinitialization for Balancing the Stability-Plasticity Tradeoff
arXiv:2602.08040v1 Announce Type: new Abstract: 定常ではないデータに訓練された深層ニューラルネットワークは、安定性(以前の知識の保持)と可塑性(新しいタスクへの適応)をバランスさせる必要があります。標準的な再初期化方法(重み値を元の値に再初期化するもの)は広く使用されていますが、チューニングが困難であり、保守的な再初期化は可塑性の回復に失敗し、過激な...
Original: arXiv:2602.08040v1 Announce Type: new Abstract: Deep neural networks trained on nonstationary data must balance stability (i.e., retaining prior knowledge) and plasticity (i.e., adapting to new tasks...
明示的戦略最適化:敵対的ポーカー環境における長期的意思決定の再考
Implicit Strategic Optimization: Rethinking Long-Horizon Decision-Making in Adversarial Poker Environments
arXiv:2602.08041v1 Announce Type: new Abstract: 敵対的ゲームに大規模言語モデル(LLM)エージェントを訓練することは、勝率などのエピソード目標によって駆動されることが多い。しかし、長期的な環境では、潜在的な戦略的外部性が時間とともに進化し、収益が形作られるため、短視的な最適化や変化に基づく後悔解析は、ダイナミクスが予測可能である場合であっても無意味に...
Original: arXiv:2602.08041v1 Announce Type: new Abstract: Training large language model (LLM) agents for adversarial games is often driven by episodic objectives such as win rate. In long-horizon settings, how...
V-ABFT:不整合に基づく適応閾値を用いた混合精度深層学習における耐障害性行列乗算
V-ABFT: Variance-Based Adaptive Threshold for Fault-Tolerant Matrix Multiplication in Mixed-Precision Deep Learning
arXiv:2602.08043v1 発表タイプ:新規 摘要:アルゴリズムに基づく耐障害性(Algorithm-Based Fault Tolerance, ABFT)は、深層学習システムにおける柱となる行列乗算における沈黙的なデータ汚染(SDC)を検出するために広く採用されています。しかし、既存の閾値決定方法には重大な課題が存在します:解析的な閾値は過剰に保守的であり、確率的アプローチ(例:A-...
Original: arXiv:2602.08043v1 Announce Type: new Abstract: Algorithm-Based Fault Tolerance (ABFT) is widely adopted to detect silent data corruptions (SDCs) in matrix multiplication, a cornerstone operation in ...
前向膜濃縮脱塩のための解釈可能なファジシステム
Interpretable Fuzzy Systems For Forward Osmosis Desalination
arXiv:2602.08050v1 Announce Type: new 摘要:ファジ規則ベースシステム(FRBS)における解釈可能性を維持することは、公衆の健康に影響を与える水処理において極めて重要です。構造の解釈可能性は多目的アルゴリズムによって取り扱われつつありますが、低可視性のファジ集合により、意味的解釈可能性はしばしば損なわれます。私たちが前向膜濃縮脱塩の生産性を予測する解釈可能な F...
Original: arXiv:2602.08050v1 Announce Type: new Abstract: Preserving interpretability in fuzzy rule-based systems (FRBS) is vital for water treatment, where decisions impact public health. While structural int...
エピグラフに基づくフローマッチリングによる安全かつ高性能なオフライン強化学習
Epigraph-Guided Flow Matching for Safe and Performant Offline Reinforcement Learning
arXiv:2602.08054v1 Announce Type: new エブリクトRL(オフライン強化学習)は、オンライン探索に伴うリスクなしに自律システムをトレーニングする強力なパラダイムを提供し、特に安全性が必須の分野において特に有用です。しかし、固定されたデータセットから同時に高い安全性と性能を実現することは依然として困難です。既存の安全なオフラインRL手法は、違反を許容するソフト制約に...
Original: arXiv:2602.08054v1 Announce Type: new Abstract: Offline reinforcement learning (RL) provides a compelling paradigm for training autonomous systems without the risks of online exploration, particularl...
Heterogeneous Edge Device 向けの LLM インフェrens 加速のためのコンパイラ支援推測サンプリング
Compiler-Assisted Speculative Sampling for Accelerated LLM Inference on Heterogeneous Edge Devices
arXiv:2602.08060v1 Announce Type: new 要約: リソース制約のあるエッジデバイス上の LLM 展開は、特に遅延応答が安全性や使いやす性を損なう可能性があるリアルタイムアプリケーションにおいて、厳格な遅延制約に直面しています。シークウェンシャルなトークンごとの生成の非効率性を緩和する手法の多くの中で、推測デコード (SD) が有望な技術として現れました。しかし、エ...
Original: arXiv:2602.08060v1 Announce Type: new Abstract: LLM deployment on resource-constrained edge devices faces severe latency constraints, particularly in real-time applications where delayed responses ca...
Efficient and Adaptable Detection of Malicious LLM Prompts via Bootstrap Aggregation
arXiv:2602.08062v1 Announce Type: new 摘要: 大規模言語モデル (LLMs) は、自然言語の理解、推論、生成において顕著な能力を示しました。しかし、これらのシステムは、悪意のあるリクエスト、ジェイルブレイク手法、プロンプトインジェクション攻撃などを通じて、危険な行動やポリシー違反を誘発する悪意のあるプロンプトに対して依然として脆弱です。既存の防御策は本質的な限...
Original: arXiv:2602.08062v1 Announce Type: new Abstract: Large Language Models (LLMs) have demonstrated remarkable capabilities in natural language understanding, reasoning, and generation. However, these sys...
Waterstein距離における誤差バウンドを持つ効率的な分布学習
Efficient Distribution Learning with Error Bounds in Wasserstein Distance
arXiv:2602.08063v1 Announce Type: new 要約:Waterstein距離は確率分布間の距離を定量化する鍵となる指標として登場し、機械学習、制御理論、意思決定理論、生体システムなど多岐にわたる分野に応用されている。その結果、未知の分布をWaterstein距離において非漸近的で計算が容易な誤差バウンド付きで学習することは、多くの分野における基本的な課題となっています...
Original: arXiv:2602.08063v1 Announce Type: new Abstract: The Wasserstein distance has emerged as a key metric to quantify distances between probability distributions, with applications in various fields, incl...
SiameseNorm: Pre-Norm と Post-Norm の調和を可能にする障壁を超える
SiameseNorm: Breaking the Barrier to Reconciling Pre/Post-Norm
arXiv:2602.08064v1 発表タイプ:新しい 要旨:現代の Transformer は、最適化安定性のために Post-Norm アーキテクチャのより優れた潜力を捨象した Pre-Norm パラダイムを採用しています。以前の試みは、安定性と性能のトレードオフをもたらしました。私たちはこの現象を、単一ストリーム設計内の構造的な不相容性に帰因しています:Post-Norm 操作の適用は、...
Original: arXiv:2602.08064v1 Announce Type: new Abstract: Modern Transformers predominantly adopt the Pre-Norm paradigm for its optimization stability, foregoing the superior potential of the unstable Post-Nor...
LLM による時間変化するユーザー好みに応じたバンドットアルゴリズムの向上:ストリーミング推薦への適用
Enhancing Bandit Algorithms with LLMs for Time-varying User Preferences in Streaming Recommendations
arXiv:2602.08067v1 Announce Type: new 抽象:
Original: arXiv:2602.08067v1 Announce Type: new Abstract: In real-world streaming recommender systems, user preferences evolve dynamically over time. Existing bandit-based methods treat time merely as a timest...
Alzheimer’s病における多模態規範モデル:内省的変分自己符号化器を用いたアプローチ
Multimodal normative modeling in Alzheimers Disease with introspective variational autoencoders
arXiv:2602.08077v1 告知タイプ:新作 抜粋:規範モデルは正常な参照分布を学習し、被験者固有の逸脱を量化することで、異質性の病変効果を捉えます。Alzheimer's disease(AD)においては、多模態神経イメージングが補完的な信号を提供しますが、VAE(変分自己符号化器)に基づく規範モデルはしばしば(i)正常な参照分布を不完全に適合させ、偽陽性を増幅し、(ii)共有潜在空間...
Original: arXiv:2602.08077v1 Announce Type: new Abstract: Normative modeling learns a healthy reference distribution and quantifies subject-specific deviations to capture heterogeneous disease effects. In Alzh...
野に deployed エージェントにおけるスペクトルガードレール:注視トポロジを介したツールの使用ハルシネーションの検出
Spectral Guardrails for Agents in the Wild: Detecting Tool Use Hallucinations via Attention Topology
arXiv:2602.08082v1 発表タイプ:new 要旨: 野における自律エージェントの展開には、ツールの使用失敗に対する信頼性の高いサファードが必要です。私たちは、注視トポロジのスペクトル解析に基づく学習フリーのガードレールを提案し、これは上流手法を補完します。Llama 3.1 8B で、我々の手法は多機能検出において 97.7% の再現率、バランス型展開において 86.1% の再現率と...
Original: arXiv:2602.08082v1 Announce Type: new Abstract: Deploying autonomous agents in the wild requires reliable safeguards against tool use failures. We propose a training free guardrail based on spectral ...
C-UASにおける信号処理用信頼性の高い ML の設計:シナリオベースのアプローチと確率ハッキング
Probability Hacking and the Design of Trustworthy ML for Signal Processing in C-UAS: A Scenario Based Method
arXiv:2602.08086v1 発表タイプ:新しい 要約:無人航空システム(UAS)が示す多様な脅威を十分に対処するために、高度なコンター・アンマンドド航空システム(C-UAS)が必要となります。人工知能(AI)などの新興かつ破壊的技術(EDT)を取り入れた C-UAS を強化することは、より効果的な対応策をもたらします。この論文では、機械学習(ML)、すなわち AI のサブセットが信号処理...
Original: arXiv:2602.08086v1 Announce Type: new Abstract: In order to counter the various threats manifested by Unmanned Aircraft Systems (UAS) adequately, specialized Counter Unmanned Aircraft Systems (C-UAS)...
継続的ドメイン進化を支援するためのオンラインドメイン認識型 LLM 推論
Online Domain-aware LLM Decoding for Continual Domain Evolution
arXiv:2602.08088v1 発表タイプ: 新規 要約:LLM は通常、ドメイン固有データをオフラインで微調整することでトレーニングされますが、その前提としたドメインは静的であると仮定されています。実際には、新しい規制、製品、サービス、および相互作用のパターンを通じてドメイン知識は継続的に進化しています。すべての新しいインスタンスのために LLM を再トレーニングまたは微調整することは計...
Original: arXiv:2602.08088v1 Announce Type: new Abstract: LLMs are typically fine-tuned offline on domain-specific data, assuming a static domain. In practice, domain knowledge evolves continuously through new...