3496 articles

arxiv_cs_lg 2026/2/10

マルチエージェントシステムが優位となるのはいつか？エージェントシステムの学習効率に関する分析

When Do Multi-Agent Systems Outperform? Analysing the Learning Efficiency of Agentic Systems

arXiv:2602.08272v1 発表タイプ：新しい要旨：強化学習（RL）は、双方向フィードバックを通じて適応的かつタスク固有の最適化を可能にする、大規模言語モデル（LLM）のトレーニングや微調整の重要な手法として登場しました。マルチエージェント強化学習（MARL）は、複雑なタスクを特化する異なるエージェントが学習する個別のサブタスクに分解することで、LLM システムの能力と効率を向上させ...

Original: arXiv:2602.08272v1 Announce Type: new Abstract: Reinforcement Learning (RL) has emerged as a crucial method for training or fine-tuning large language models (LLMs), enabling adaptive, task-specific ...

arxiv_cs_lg 2026/2/10

トランスフォーマーモデルのノイズ耐性

Noise Stability of Transformer Models

arXiv:2602.08287v1 Announce Type: new 要約：機械学習における単純さバイアスの理解は、信頼性の高い AI 開発への有望な経路を提供します。このための一般的な指標の一つに、真の関数解析に着想を得た平均感度があります。これは、モデルの単一トークン誤差への強健性を捉えるものです。平均感度には二つの主要な制限があるとわれ、それは実数ドメインにおける自然な一般化を欠き、...

Original: arXiv:2602.08287v1 Announce Type: new Abstract: Understanding simplicity biases in deep learning offers a promising path toward developing reliable AI. A common metric for this, inspired by Boolean f...

arxiv_cs_lg 2026/2/10

半分散型連帯学習システムにおける信頼に基づくインセンティブメカニズム

Trust-Based Incentive Mechanisms in Semi-Decentralized Federated Learning Systems

arXiv:2602.08290v1 Announce Type: new 概要：連帯学習（FL）において、分散型モデルトレーニングにより、複数の参加者が生のデータを交換することなく共有される機械学習モデルを協同的に改善できます。しかし、性能を低下させる可能性のある悪意のあるまたは故障したノードの存在により、システムの整合性と信頼性を確保することは容易ではありません。本論文では、FL システムにお...

Original: arXiv:2602.08290v1 Announce Type: new Abstract: In federated learning (FL), decentralized model training allows multi-ple participants to collaboratively improve a shared machine learning model witho...

arxiv_cs_lg 2026/2/10

Grokking in Linear Models for Logistic Regression

arXiv:2602.08302v1 Announce Type: new Abstract: Grokking（遅れgeneralization現象）は、一般的にディープニューラルネットワークの深さや構成的構造に起因すると考えられています。我々は最も単純な設定の一つ、すなわち原点に関して線形かつ最大マージンに分離可能なデータにおける二分類問題において、ロジスティック損失関数による線形モデルの学習...

Original: arXiv:2602.08302v1 Announce Type: new Abstract: Grokking, the phenomenon of delayed generalization, is often attributed to the depth and compositional structure of deep neural networks. We study grok...

arxiv_cs_lg 2026/2/10

TextResNet: 複合 AI システムにおける最適化信号の解耦とルータングの最適化に対するディープリズidualチューニング

TextResNet: Decoupling and Routing Optimization Signals in Compound AI Systems via Deep Residual Tuning

arXiv:2602.08306v1 発表タイプ：新しい要約：テキスト・グラデントスタイルの最適化器 (TextGrad) は、複合 AI システムを介してグラデントのようなフィードバックの伝播を可能にします。しかし、それらは深いチェーンに対してうまく機能しません。この制限の根本的原因は、これらの拡張されたワークフローにおける「Semantic Entanglement」問題にあります。標準的な...

Original: arXiv:2602.08306v1 Announce Type: new Abstract: Textual Gradient-style optimizers (TextGrad) enable gradient-like feedback propagation through compound AI systems. However, they do not work well for ...

arxiv_cs_lg 2026/2/10

文脈依存マルコフ決定過程におけるパーソナライズされたフィードバックを利用したインタラクションに基づく学習

Interaction-Grounded Learning for Contextual Markov Decision Processes with Personalized Feedback

arXiv:2602.08307v1 Announce Type: new 本稿では、未知のメカニズムによって生成された間接フィードバックではなく、明示的な数値報酬として受け取れないリアリストシナリオのために設計されたインタラクションに基づく学習 (IGL) [Xie et al., 2021] を研究します。以前の IGL に関する研究は、効率的なアルゴリズムと証明された保証を提供していますが、...

Original: arXiv:2602.08307v1 Announce Type: new Abstract: In this paper, we study Interaction-Grounded Learning (IGL) [Xie et al., 2021], a paradigm designed for realistic scenarios where the learner receives ...

arxiv_cs_lg 2026/2/10

因果推論のためのフローマッチングに基づく条件独立性テスト

Fast Flow Matching based Conditional Independence Tests for Causal Discovery

arXiv:2602.08315v1 Announce Type: new Abstract: 制約ベースの因果推論手法は、多くの条件独立性（CI）テストを必要とし、高次計算複雑性により実用上の適用を大幅に制限する。したがって、個々のテストを加速させるアルゴリズムを設計することが不可欠である。このために、私たちはフローマッチングに基づく条件独立性テスト（FMCIT）を提案する。提案されたテストは、...

Original: arXiv:2602.08315v1 Announce Type: new Abstract: Constraint-based causal discovery methods require a large number of conditional independence (CI) tests, which severely limits their practical applicab...

arxiv_cs_lg 2026/2/10

Extreme-Ratio Chain-of-Thought Compression を活用した効率的な大規模言語モデル推論への道筋

Towards Efficient Large Language Reasoning Models via Extreme-Ratio Chain-of-Thought Compression

arXiv:2602.08324v1 Announce Type: new Abstract: チェーン・オブ・ Thought (CoT) 推論は、大規模言語モデル (LLMs) の推論能力を大幅に向上させることに成功したが、それが引き起こす推論のための計算オーバーヘッドは莫大である。既存の CoT 圧縮手法は、高い圧縮比において論理整合性の重要な喪失を経験することが多く、これが著しい性能低下を...

Original: arXiv:2602.08324v1 Announce Type: new Abstract: Chain-of-Thought (CoT) reasoning successfully enhances the reasoning capabilities of Large Language Models (LLMs), yet it incurs substantial computatio...

arxiv_cs_lg 2026/2/10

Long-Context Inferenceにおける Near-Oracle KV セレクション：前処理による事前 sparsity

Near-Oracle KV Selection via Pre-hoc Sparsity for Long-Context Inference

arXiv:2602.08329v1 発表タイプ：新要旨：大規模言語モデル（LLM）推論における重要なボトルネックは、絶えず拡大するキー・値（KV）キャッシュの検索コストである。Near-Oracle トップ k KV セレクションは、スパースな密度関数化を可能にしながら計算量と帯域幅を著しく削減するものの、既存のスパース手法は観測された注意スコアや代理スコアを条件とする事後の直感に依存している...

Original: arXiv:2602.08329v1 Announce Type: new Abstract: A core bottleneck in large language model (LLM) inference is the cost of attending over the ever-growing key-value (KV) cache. Although near-oracle top...

arxiv_cs_lg 2026/2/10

体制変化仮説：ニューラルネットワーク訓練における非結合動的性の基礎

Regime Change Hypothesis: Foundations for Decoupled Dynamics in Neural Network Training

arXiv:2602.08333v1 発表型：新しい要約：ディープラーニングネットワーク（DNN）の経験的成功にもかかわらず、それらの内部の訓練のダイナミクスは記述が困難である。ReLU ベースのモデルにおいて、入力によって誘発される活性化パターンは、ネットワークが線形的に振る舞う部分線形領域を決定する。この幾何学的構造を動機づけて、訓練が 2 つの時間スケールを示すか否かを調査した：早期段階...

Original: arXiv:2602.08333v1 Announce Type: new Abstract: Despite the empirical success of DNN, their internal training dynamics remain difficult to characterize. In ReLU-based models, the activation pattern i...

arxiv_cs_lg 2026/2/10

ManifoldKV: Euclidian 異方性検出に基づく訓練なし KV キャッシュ圧縮

ManifoldKV: Training-Free KV Cache Compression via Euclidean Outlier Detection

論文: arXiv:2602.08343v1 発表型: 新しい要約：長文脈推論は KVキャッシュのメモリ容量に制限されており、この容量はシーケンス長に線形的に増大するため、KVキャッシュの圧縮はどの過去トークンを保持するかを信頼できる方法で選択する点に依存します。多くの幾何学的エビクション方法は、鍵をグローバルセントロイドとの余弦類似度でスコアリングしますが、余弦はスケール不変であり、文法的に...

Original: arXiv:2602.08343v1 Announce Type: new Abstract: Long-context inference is constrained by KV-cache memory, which grows linearly with sequence length; KV-cache compression therefore hinges on reliably ...

arxiv_cs_lg 2026/2/10

線形次元における確率的凸最適化におけるすべての経験リスク最小化器は失敗する：線形次元における下界

All ERMs Can Fail in Stochastic Convex Optimization Lower Bounds in Linear Dimension

arXiv:2602.08350v1 発表タイプ：新規要旨: 我々は、確率的凸最適化の setting において、最も良いケースの経験リスク最小化器 (ERM) のサンプル複雑性を研究した。我々は、サンプルサイズが次元に比例し、学習が可能であるにもかかわらず、経験リスク最小化器が一意になり、過剰適合する可能性があるようなインスタンスが存在することを示した。これは Feldman の残された質問...

Original: arXiv:2602.08350v1 Announce Type: new Abstract: We study the sample complexity of the best-case Empirical Risk Minimizer in the setting of stochastic convex optimization. We show that there exists an...

arxiv_cs_lg 2026/2/10

鶏と卵のパラドックス：LLM のトレーニングデータを効率的に共同最適化する手法

The Chicken and Egg Dilemma: Co-optimizing Data and Model Configurations for LLMs

arXiv:2602.08351v1 発表タイプ：新しい要約：LLM のトレーニングにおいて、データとモデルの構成を共同最適化する際、その「鶏と卵のパラドックス」が浮上します：下流タスクにおける最適なトレーニングデータ構成（例えば、データミックス）は選択されたモデル構成（例えば、モデルアーキテクチャ）に依存し、逆も同様です。しかし、両方の構成を同時に最適化する任务是しばしば不可能であると考えられ...

Original: arXiv:2602.08351v1 Announce Type: new Abstract: Co-optimizing data and model configurations for training LLMs presents a classic chicken-and-egg dilemma: The best training data configuration (e.g., d...

arxiv_cs_lg 2026/2/10

動的後悔の最小化：曲がり損の減少法に基づくアプローチと Adam Optimizer への応用

Dynamic Regret via Discounted-to-Dynamic Reduction with Applications to Curved Losses and Adam Optimizer

arXiv:2602.08372v1 発表タイプ：新しい要約：非定常オンライン学習における動的後悔最小化を研究し、主に追随則の指導者 (FTRL) 手法に焦点を当てています。FTRL は曲がり損 (curved losses) の分析と、Adam などの適応型オプティマイザーの理解において重要ですが、既存の動的後悔解析は FTRL に対して十分に開発されていません。この問題を解決するために、我々...

Original: arXiv:2602.08372v1 Announce Type: new Abstract: We study dynamic regret minimization in non-stationary online learning, with a primary focus on follow-the-regularized-leader (FTRL) methods. FTRL is i...

arxiv_cs_lg 2026/2/10

OJBKQ: Objective-Joint Babai-Klein Quantization

arXiv:2602.08376v1 Announce Type: new Abstract: Post-training quantization (PTQ) は、再トレーニングを要さずに大規模言語モデルを圧縮するの広く使われています。しかし、既存の重みだけの手法はヒューリスティックな目的関数と貪欲な丸めに基づくため、低ビット化の下で顕著な性能低下を引き起こします。本研究では、OJBKQ（Obj...

Original: arXiv:2602.08376v1 Announce Type: new Abstract: Post-training quantization (PTQ) is widely used to compress large language models without retraining. However, many existing weight-only methods rely o...

arxiv_cs_lg 2026/2/10

Backtracking Feedback を備えた強化学習

Reinforcement Learning with Backtracking Feedback

arXiv:2602.08377v1 Announce Type: new Abstract: 大規模言語モデル（LLMs）における堅牢な安全性、特に敵対攻撃および分布内誤差への対応という重要なニーズに応えるために、Backtracking Feedback（再確認フィードバック）を備えた強化学習（RLBF）を導入しました。この枠組みは、BSAFE などの先続手法を主な強化学習（RL）段階で進歩...

Original: arXiv:2602.08377v1 Announce Type: new Abstract: Addressing the critical need for robust safety in Large Language Models (LLMs), particularly against adversarial attacks and in-distribution errors, we...