12901 articles
ロジックの表現空間を活用したニューロシンボル学習の改善について
On Improving Neurosymbolic Learning by Exploiting the Representation Space
arXiv:2602.07973v1 発表タイプ:新作 本文: 本研究では、入力インスタンスの隠れた真ラベルが論理式を満たす必要があるニューロシンボリック設定における神経分類器の学習を調べます。この設定における学習は、まず論理式を満たすラベルの組み合わせ(のサブセット)を計算し、その後、それらの組み合わせと分類器のスコアを用いて損失を計算して進めます。一つの手掛かりとなる課題は、ラベルの組み合わせ...
Original: arXiv:2602.07973v1 Announce Type: new Abstract: We study the problem of learning neural classifiers in a neurosymbolic setting where the hidden gold labels of input instances must satisfy a logical f...
最適化を超へる:幾何的不完全性下でのトポロジ的因子分解に基づくインテリジェンスのメトリクス・トポロジー理論
Beyond Optimization: Intelligence as Metric-Topology Factorization under Geometric Incompleteness
arXiv:2602.07974v1 発表 タイプ:新規 要約:現代的な機械学習は、しばしばインテリジェンスを最適化に同一化し、固定された表現幾何形内の解の探求とみなしている。これは静的な環境では機能するが、分布シフト、タスクの再配置、および続編学習(continual learning)といった状況では、軽微なトポロジ的変化が学習された解を無効化し、カオティックな忘却(catastrophic...
Original: arXiv:2602.07974v1 Announce Type: new Abstract: Contemporary ML often equates intelligence with optimization: searching for solutions within a fixed representational geometry. This works in static re...
可検証報酬を用いた構成論理的推論が学習可能になる条件は何時かか
When Is Compositional Reasoning Learnable from Verifiable Rewards?
arXiv:2602.07992v1 Announcement Type: new 摘 要: 可検証報酬 (RLVR) を用いた強化学習を通じて、大型言語モデルにおける構成論理的推論の出現は、直近の実験的成功な主な推進力となった。despite this progress, it remains unclear which compositional problems are learnable ...
Original: arXiv:2602.07992v1 Announce Type: new Abstract: The emergence of compositional reasoning in large language models through reinforcement learning with verifiable rewards (RLVR) has been a key driver o...
Unichain 制約の一般パラメータ化平均報酬制約マルコフ決定過程における後悔解析
Regret Analysis of Unichain Average Reward Constrained MDPs with General Parameterization
arXiv:2602.08000v1 Announce Type: new Abstract: 私達はユニチェーン仮定と一般政策パラメータ化の下で、無限期間平均報酬制約マルコフ決定過程 (CMDPs) を研究します。既存の制約強化学習の後悔解析は、エルゴード性または強い混合時間の仮実に大きく依存しており、遷移状態が存在する場合はこれを成立させることができません。私達はマルチレベルモンテカルロ (M...
Original: arXiv:2602.08000v1 Announce Type: new Abstract: We study infinite-horizon average-reward constrained Markov decision processes (CMDPs) under the unichain assumption and general policy parameterizatio...
常に最高パフォーマンスのモデルを選ぶ必要はない:大規模言語モデルアンサンブル選択の情報理論的視点
Don't Always Pick the Highest-Performing Model: An Information Theoretic View of LLM Ensemble Selection
arXiv:2602.08003v1 発表タイプ:新規 要旨:大規模言語モデル(LLMs)は、全体の信頼性と強固さを高めるためにしばしばアンサンブルされますが、実際にはモデル間の相関は非常に高いです。これにより、LLM アンサンブルを形成する際にどのモデルを選択すべきかという根本的な問いが提起されます。我々は、制約付きアンサンブル選択を、選択されたモデルと真ラベルとの相互情報量を最大化する問題とし...
Original: arXiv:2602.08003v1 Announce Type: new Abstract: Large language models (LLMs) are often ensembled together to improve overall reliability and robustness, but in practice models are strongly correlated...
From $O(mn)$ to $O(r^2)$: Two-Sided Low-Rank Communication for Adam in Distributed Training with Memory Efficiency
arXiv:2602.08007v1 Announce Type: new Abstract: ファウンデーションモデルの規模拡大に伴い、事前学習ではデータ並列最適化への依存がますます高まり、帯域幅に制限された勾配同期が主要なボトルネックとなっています。また、射影ベースの低階最適化器は主にメモリ効率のために設計されてきましたが、通信制限された学習には依然として最適ではなく、一方通信では $m\ti...
Original: arXiv:2602.08007v1 Announce Type: new Abstract: As foundation models continue to scale, pretraining increasingly relies on data-parallel distributed optimization, making bandwidth-limited gradient sy...
流動制御とマージの統一された密度演算子視座
A Unified Density Operator View of Flow Control and Merging
arXiv:2602.08012v1 発表 タイプ:新規 要旨:最近の大規模なフローモデルおよび拡散モデルの進展により、2 つの基本的なアルゴリズム的な課題が発生した:(i) 事前学習されたフローの制御に基づく報酬適応、および (ii) 複数のモデルの統合、すなわちフローマージ。現在の手法がそれぞれ個別に対処しているのに対し、私たちが両者を極限ケースとして含む統一的な確率空間フレームワークを導入...
Original: arXiv:2602.08012v1 Announce Type: new Abstract: Recent progress in large-scale flow and diffusion models raised two fundamental algorithmic challenges: (i) control-based reward adaptation of pre-trai...
スパースミックス・オブ・エキスパートの台頭:アルゴリズム的基礎から分散アーキテクチャ、および垂直ドメインへの適用へ:包括的レビュー
The Rise of Sparse Mixture-of-Experts:A Survey from Algorithmic Foundations to Decentralized Architectures and Vertical Domain Applications
arXiv:2602.08019v1 発表タイプ:新規 要約:スパースミックス・オブ・エキスパート(MoE)アーキテクチャは、深層学習モデルのパラメータ規模を拡大し、同等の計算コストを維持する強力なアプローチとして進化しました。大型言語モデル(LLM)の重要な分野として、MoE モデルはルーティングネットワークに基づいてエクスパートのサブセットのみを活性化します。このスパース条件計算機機能は、計算...
Original: arXiv:2602.08019v1 Announce Type: new Abstract: The sparse Mixture of Experts(MoE) architecture has evolved as a powerful approach for scaling deep learning models to more parameters with comparable ...
線形アンサンブルサンプリングのシャープ解析
Sharp analysis of linear ensemble sampling
arXiv:2602.08026v1 Announce Type: new 要旨: 我々は、確率的な線形バンディットにおいて標準のガウス擾乱を用いた線形アンサンブルサンプリング(ES)を解析する。我々は、アンサンブルサイズ $m = \Theta(d \log n)$ の場合、ES が高確率で $\tilde O(d^{3/2} \sqrt n)$ のリグレットを達成することを示し、これによりトン...
Original: arXiv:2602.08026v1 Announce Type: new Abstract: We analyse linear ensemble sampling (ES) with standard Gaussian perturbations in stochastic linear bandits. We show that for ensemble size $m=\Theta(d\...
Horizon Imagination: 拡散モデルにおける効率的なオンポリシートレーニング
Horizon Imagination: Efficient On-Policy Training in Diffusion World Models
arXiv:2602.08032v1 Announce Type: new Abstract: 私たちは、再帰的な精度が高まるが制御における効率性の課題に直面している、強化学習用の拡散ベースの世界モデルを調査しました。既存の方法は、推論時にHeavyweightモデルを必要とするか、非常に順序立てた想像に依存しており、どちらも莫大な計算コストを伴います。私たちは、離散確率的政策のためのオンポリシー...
Original: arXiv:2602.08032v1 Announce Type: new Abstract: We study diffusion-based world models for reinforcement learning, which offer high generative fidelity but face critical efficiency challenges in contr...
多様性の利点:比較と評価を結合した効率的なスコアリング
The Benefits of Diversity: Combining Comparisons and Ratings for Efficient Scoring
arXiv:2602.08033v1 公式タイプ:新規発表 要約: 人間に個別的に、あるいは比較的にエンティティを評価させるべきか。この問題は長年の議論の的であった。本研究において、両方の形態の好意思求を組み合わせることの効用は、いずれか一つのみに焦点を当てることよりも上回ることを示す。具体的には、比較と評価の両方のシグナルから学習を可能にする統一的確率的モデルである SCoRa(Scoring ...
Original: arXiv:2602.08033v1 Announce Type: new Abstract: Should humans be asked to evaluate entities individually or comparatively? This question has been the subject of long debates. In this work, we show th...
TAAM: インдукティブ・グラフクラス漸近学習におけるタスク認識による適応的調制度
TAAM:Inductive Graph-Class Incremental Learning with Task-Aware Adaptive Modulation
arXiv:2602.08036v1 Announce Type: new Abstract: グラフ継続的学習 (GCL) はストリーミンググラフデータの課題を解決することを目的としている。しかし、既存の方法は多くの場合、再プレイベースの戦略に依存しており、これはメモリ制約やプライバシーの問題を引き起こすとともに、安定性と可塑性のジレンマを解決する際に困難である。本稿では、軽量でタスク固有のモジ...
Original: arXiv:2602.08036v1 Announce Type: new Abstract: Graph Continual Learning (GCL) aims to solve the challenges of streaming graph data. However, current methods often depend on replay-based strategies, ...
FIRE: 平衡安定性と可塑性に関するフランクニスの等距再初期化
FIRE: Frobenius-Isometry Reinitialization for Balancing the Stability-Plasticity Tradeoff
arXiv:2602.08040v1 Announce Type: new Abstract: 定常ではないデータに訓練された深層ニューラルネットワークは、安定性(以前の知識の保持)と可塑性(新しいタスクへの適応)をバランスさせる必要があります。標準的な再初期化方法(重み値を元の値に再初期化するもの)は広く使用されていますが、チューニングが困難であり、保守的な再初期化は可塑性の回復に失敗し、過激な...
Original: arXiv:2602.08040v1 Announce Type: new Abstract: Deep neural networks trained on nonstationary data must balance stability (i.e., retaining prior knowledge) and plasticity (i.e., adapting to new tasks...
明示的戦略最適化:敵対的ポーカー環境における長期的意思決定の再考
Implicit Strategic Optimization: Rethinking Long-Horizon Decision-Making in Adversarial Poker Environments
arXiv:2602.08041v1 Announce Type: new Abstract: 敵対的ゲームに大規模言語モデル(LLM)エージェントを訓練することは、勝率などのエピソード目標によって駆動されることが多い。しかし、長期的な環境では、潜在的な戦略的外部性が時間とともに進化し、収益が形作られるため、短視的な最適化や変化に基づく後悔解析は、ダイナミクスが予測可能である場合であっても無意味に...
Original: arXiv:2602.08041v1 Announce Type: new Abstract: Training large language model (LLM) agents for adversarial games is often driven by episodic objectives such as win rate. In long-horizon settings, how...
V-ABFT:不整合に基づく適応閾値を用いた混合精度深層学習における耐障害性行列乗算
V-ABFT: Variance-Based Adaptive Threshold for Fault-Tolerant Matrix Multiplication in Mixed-Precision Deep Learning
arXiv:2602.08043v1 発表タイプ:新規 摘要:アルゴリズムに基づく耐障害性(Algorithm-Based Fault Tolerance, ABFT)は、深層学習システムにおける柱となる行列乗算における沈黙的なデータ汚染(SDC)を検出するために広く採用されています。しかし、既存の閾値決定方法には重大な課題が存在します:解析的な閾値は過剰に保守的であり、確率的アプローチ(例:A-...
Original: arXiv:2602.08043v1 Announce Type: new Abstract: Algorithm-Based Fault Tolerance (ABFT) is widely adopted to detect silent data corruptions (SDCs) in matrix multiplication, a cornerstone operation in ...
前向膜濃縮脱塩のための解釈可能なファジシステム
Interpretable Fuzzy Systems For Forward Osmosis Desalination
arXiv:2602.08050v1 Announce Type: new 摘要:ファジ規則ベースシステム(FRBS)における解釈可能性を維持することは、公衆の健康に影響を与える水処理において極めて重要です。構造の解釈可能性は多目的アルゴリズムによって取り扱われつつありますが、低可視性のファジ集合により、意味的解釈可能性はしばしば損なわれます。私たちが前向膜濃縮脱塩の生産性を予測する解釈可能な F...
Original: arXiv:2602.08050v1 Announce Type: new Abstract: Preserving interpretability in fuzzy rule-based systems (FRBS) is vital for water treatment, where decisions impact public health. While structural int...
エピグラフに基づくフローマッチリングによる安全かつ高性能なオフライン強化学習
Epigraph-Guided Flow Matching for Safe and Performant Offline Reinforcement Learning
arXiv:2602.08054v1 Announce Type: new エブリクトRL(オフライン強化学習)は、オンライン探索に伴うリスクなしに自律システムをトレーニングする強力なパラダイムを提供し、特に安全性が必須の分野において特に有用です。しかし、固定されたデータセットから同時に高い安全性と性能を実現することは依然として困難です。既存の安全なオフラインRL手法は、違反を許容するソフト制約に...
Original: arXiv:2602.08054v1 Announce Type: new Abstract: Offline reinforcement learning (RL) provides a compelling paradigm for training autonomous systems without the risks of online exploration, particularl...
Heterogeneous Edge Device 向けの LLM インフェrens 加速のためのコンパイラ支援推測サンプリング
Compiler-Assisted Speculative Sampling for Accelerated LLM Inference on Heterogeneous Edge Devices
arXiv:2602.08060v1 Announce Type: new 要約: リソース制約のあるエッジデバイス上の LLM 展開は、特に遅延応答が安全性や使いやす性を損なう可能性があるリアルタイムアプリケーションにおいて、厳格な遅延制約に直面しています。シークウェンシャルなトークンごとの生成の非効率性を緩和する手法の多くの中で、推測デコード (SD) が有望な技術として現れました。しかし、エ...
Original: arXiv:2602.08060v1 Announce Type: new Abstract: LLM deployment on resource-constrained edge devices faces severe latency constraints, particularly in real-time applications where delayed responses ca...
Efficient and Adaptable Detection of Malicious LLM Prompts via Bootstrap Aggregation
arXiv:2602.08062v1 Announce Type: new 摘要: 大規模言語モデル (LLMs) は、自然言語の理解、推論、生成において顕著な能力を示しました。しかし、これらのシステムは、悪意のあるリクエスト、ジェイルブレイク手法、プロンプトインジェクション攻撃などを通じて、危険な行動やポリシー違反を誘発する悪意のあるプロンプトに対して依然として脆弱です。既存の防御策は本質的な限...
Original: arXiv:2602.08062v1 Announce Type: new Abstract: Large Language Models (LLMs) have demonstrated remarkable capabilities in natural language understanding, reasoning, and generation. However, these sys...
Waterstein距離における誤差バウンドを持つ効率的な分布学習
Efficient Distribution Learning with Error Bounds in Wasserstein Distance
arXiv:2602.08063v1 Announce Type: new 要約:Waterstein距離は確率分布間の距離を定量化する鍵となる指標として登場し、機械学習、制御理論、意思決定理論、生体システムなど多岐にわたる分野に応用されている。その結果、未知の分布をWaterstein距離において非漸近的で計算が容易な誤差バウンド付きで学習することは、多くの分野における基本的な課題となっています...
Original: arXiv:2602.08063v1 Announce Type: new Abstract: The Wasserstein distance has emerged as a key metric to quantify distances between probability distributions, with applications in various fields, incl...