3496 articles
MARTI-MARS$^2$: 強化学習を活用したコード生成におけるマルチエージェント自己検索の拡張
MARTI-MARS$^2$: Scaling Multi-Agent Self-Search via Reinforcement Learning for Code Generation
arXiv:2602.07848v1 Announce Type: new 【要約】 大規模言語モデル(LLM)の複雑な推論能力は大きな関心を集めていますが、単一エージェントシステムでは、コード生成のような複雑なタスクにおいて内在する性能の限界に直面することが多いです。マルチエージェントの協力は、これらの限界を乗り越える有望なアプローチを提供しています。ただし、既存のフレームワークは、提示物ベー...
Original: arXiv:2602.07848v1 Announce Type: new Abstract: While the complex reasoning capability of Large Language Models (LLMs) has attracted significant attention, single-agent systems often encounter inhere...
パターンの一致性を保証したデータセンター用動的負荷モデルの模式適合定量化
Dynamic Load Model for Data Centers with Pattern-Consistent Calibration
arXiv:2602.07859v1 Announce Type: new 要旨:データセンターの急激な発展により、大型電子負荷(LEL)のモデル化は電力システム解析においてますます重要になっています。そのような負荷は、従来の負荷モデルでは捉えられない、ワークロード駆動による急速な変動性と、保護系駆動による接続と再接続の挙動を特徴としています。既存のデータセンター負荷モデルには、グリッドシミュレー...
Original: arXiv:2602.07859v1 Announce Type: new Abstract: The rapid growth of data centers has made large electronic load (LEL) modeling increasingly important for power system analysis. Such loads are charact...
Langevin Dynamics を用いた直接 Soft-Policy サンプリング
Direct Soft-Policy Sampling via Langevin Dynamics
arXiv:2602.07873v1 Announce Type: new 摘要:強化学習におけるソフト ポリシーは、状態行動価値関数における Boltzmann 分布としてポリシーを定義し、探索と利用のバランスを取る原理的なメカニズムを提供します。しかし、実務においてこのようなソフト ポリシーを実現することは依然として困難です。既存のアプローチは、表現力の制限のあるパラメトリックなポリシーに依存...
Original: arXiv:2602.07873v1 Announce Type: new Abstract: Soft policies in reinforcement learning define policies as Boltzmann distributions over state-action value functions, providing a principled mechanism ...
Harpoon: Conditional Tabular Diffusionのための汎用的マンニフォールドガイド
Harpoon: Generalised Manifold Guidance for Conditional Tabular Diffusion
arXiv:2602.07875v1 発表タイプ:新しい 要旨:制約条件下で表計算データを生成することは、生成過程を精密に制御する必要があるアプリケーションにとって不可欠です。既存の方法は、訓練時の戦略に依存しており、推論時に未知の制約に対して汎用化されず、表計算補填以外の制約条件下のタスクに対処することが困難です。マンニフォールド理論は生成を原理的にガイドする方法を提供しますが、現在の形式は特定...
Original: arXiv:2602.07875v1 Announce Type: new Abstract: Generating tabular data under conditions is critical to applications requiring precise control over the generative process. Existing methods rely on tr...
GRAFT: 生存解析における分類と校准の解耦
GRAFT: Decoupling Ranking and Calibration for Survival Analysis
arXiv:2602.07884v1 発表 タイプ:new 要約:生存解析は、欠測データ、高次元特徴、そして非線形相互作用により複雑です。古典的なモデルは解釈可能ですが制約が厳しく、深層学習のモデルは柔軟ですが、しばしば非解釈的でありノイズに敏感です。私たちは、予後順位と校准を解耦する革新的な AFT モデルである GRAFT(Gated Residual Accelerated Failure ...
Original: arXiv:2602.07884v1 Announce Type: new Abstract: Survival analysis is complicated by censored data, high-dimensional features, and non-linear interactions. Classical models are interpretable but restr...
Offline 強化学習における効率的な反探求手法:VQVAE と Fuzzy Clustering を活用
Efficient Anti-exploration via VQVAE and Fuzzy Clustering in Offline Reinforcement Learning
arXiv:2602.07889v1 Announce Type: new 要旨:偽計数(pseudo-count)は、状態 - 行動ペアの数え上げを伴い、稀または未見の状態 - 行動ペアデータに対して大きな罰則を課すことで、オフライン強化学習において極めて効果的な反探求手法である。既存の反探求手法は、これらのデータを離散化することで連続な状態 - 行動ペアをカウントしているが、離散化プロセスにお...
Original: arXiv:2602.07889v1 Announce Type: new Abstract: Pseudo-count is an effective anti-exploration method in offline reinforcement learning (RL) by counting state-action pairs and imposing a large penalty...
Safet Alignmen as Continual Learning: Alignmen Tax の軽減のための直交勾配投影
Safety Alignment as Continual Learning: Mitigating the Alignment Tax via Orthogonal Gradient Projection
arXiv:2602.07892v1 発表タイプ:新規 要約:大型言語モデル (LLM) は、安全アライメント訓練によって一般有用性(推論やコーディングなど)が低下するという「アライメント課税」の影響を受けることが多い。我々は、この課税は主に、連続学習スタイルの忘却から生じるものであり、分布シフトと矛盾する目的が、安全な更新が事前学習の能力を覆う原因となっていると主張する。したがって、安全アライメ...
Original: arXiv:2602.07892v1 Announce Type: new Abstract: Large Language Models (LLMs) often incur an alignment tax: safety post-training can reduce general utility (e.g., reasoning and coding). We argue that ...
大規模言語モデルを有するベイズ最適化における適応的取得関数選択
Adaptive Acquisition Selection for Bayesian Optimization with Large Language Models
arXiv:2602.07904v1 発表タイプ: new 要約:ベイズ最適化(BO)には、取得関数(acquisition function)の選択が不可欠であるが、どの戦略が万能に最適というものは存在せず、最適な選択は非定常的で問題依存である。既存の適応的ポートフォール手法は、過去の関数值に基づいて意思決定を行うが、残りの予算や代替モデルの特性といったより豊富な情報を無視する傾向がある。これを...
Original: arXiv:2602.07904v1 Announce Type: new Abstract: Bayesian Optimization critically depends on the choice of acquisition function, but no single strategy is universally optimal; the best choice is non-s...
AceGRPO: 自律型機械学習エンジニアリングのための適応的カリキュラム強化グループ相対政策最適化
AceGRPO: Adaptive Curriculum Enhanced Group Relative Policy Optimization for Autonomous Machine Learning Engineering
arXiv:2602.07906v1 Announce Type: new Abstract: 自律型機械学習エンジニアリング(MLE)では、エージェントに長期 horizon をわたって持続的な反復最適化を行う必要があります。最近の LLM ベースのアジェンテは有望であるものの、ML 用の既存のプロンプトベースのアジェンテは、冻结されたパラメータによって行動の停滞を招く課題を抱えています。 al...
Original: arXiv:2602.07906v1 Announce Type: new Abstract: Autonomous Machine Learning Engineering (MLE) requires agents to perform sustained, iterative optimization over long horizons. While recent LLM-based a...
CausalCompass: 誤設定シナリオにおける時系列因果発見の頑健性評価
CausalCompass: Evaluating the Robustness of Time-Series Causal Discovery in Misspecified Scenarios
arXiv:2602.07915v1 発表タイプ:新規 要旨: 時系列からの因果発見は機械学習における基本タスクの一つです。しかし、それは検証不能な因果仮定に依存する点と、既存ベンチマークにおける頑健性指向の評価の欠如という障壁に直面しており、広く採用されることが妨げられています。これらの課題に対処するため、我々は仮定違反下における時系列因果発見(TSCD)メソッドの頑健性を評価するための柔軟で拡...
Original: arXiv:2602.07915v1 Announce Type: new Abstract: Causal discovery from time series is a fundamental task in machine learning. However, its widespread adoption is hindered by a reliance on untestable c...
エネルギー保存則を用いたフローマッチングの物理学的視角
A Kinetic-Energy Perspective of Flow Matching
arXiv:2602.07928v1 発表 タイプ: 新しい 要約: フローベースの生成モデルは、物理的な観点を通じて見なすことができます。サンプリングは、ノイズからデータを粒子を運ぶために、時間とともに変化する速度場に沿って積分を行い、各サンプルは独自の動的な効力を伴う軌道に対応します。古典力学に着想を得て、我々は通常の微分方程式(ODE)軌道に沿った蓄積した運動効率を測定する、アクションのよう...
Original: arXiv:2602.07928v1 Announce Type: new Abstract: Flow-based generative models can be viewed through a physics lens: sampling transports a particle from noise to data by integrating a time-varying velo...
Tabular Biomedical データを用いた早期パーキンソン病検出のための Attention ベースのディープ学習
Attention-Based Deep Learning for Early Parkinson's Disease Detection with Tabular Biomedical Data
arXiv:2602.07933v1 Announce Type: new **要約** 早期かつ精度高いパーキンソン病(PD)の診断は、初期症状の微妙さおよび生体データに内在する複雑な非線形関係ゆえに、医療診断の面で依然として重要な課題です。従来の機械学習(ML)モデルは広くPDの検出に応用されていますが、広範な特徴量設計に依存し、複雑な特徴間の相互作用を捉えることに苦慮することがあります。本...
Original: arXiv:2602.07933v1 Announce Type: new Abstract: Early and accurate detection of Parkinson's disease (PD) remains a critical challenge in medical diagnostics due to the subtlety of early-stage symptom...
学習の熱力学理論第二部:臨界期間の閉鎖と継続的学習の失敗
A Thermodynamic Theory of Learning Part II: Critical Period Closure and Continual Learning Failure
arXiv:2602.07950v1 Announce Type: new 要約:有限時間で実行される学習は本質的に不可逆的である。このシリーズの第一部では、パラメータ分布の空間における運搬過程として学習をモデル化し、有限時間学習におけるエントロピー生成の下界となる「認識速度限界 (Epistemic Speed Limit)」を導出した。 本論文(第二部)では、この不可逆性が一貫した学習(con...
Original: arXiv:2602.07950v1 Announce Type: new Abstract: Learning performed over finite time is necessarily irreversible. In Part~I of this series, we modeled learning as a transport process in the space of p...
解像可能なマルチタスク類似度測定:累積局所効果と加重されたフレッチャー距離の統合
An Explainable Multi-Task Similarity Measure: Integrating Accumulated Local Effects and Weighted Fr\'echet Distance
arXiv:2602.07966v1 Announce Type: new 摘出:機械学習の多くの文脈において、タスクは常に関係する構成要素として扱われ、その間に知識を転移させることを目的としています。これはマルチタスク学習(MTL)の中心的な目標です。したがって、このマルチタスクシナリオでは、どのタスクが類似しているか、そしてどのように、なぜ類似性を示すかという重要な質問への回答が必要です。本稿...
Original: arXiv:2602.07966v1 Announce Type: new Abstract: In many machine learning contexts, tasks are often treated as interconnected components with the goal of leveraging knowledge transfer between them, wh...
ロジックの表現空間を活用したニューロシンボル学習の改善について
On Improving Neurosymbolic Learning by Exploiting the Representation Space
arXiv:2602.07973v1 発表タイプ:新作 本文: 本研究では、入力インスタンスの隠れた真ラベルが論理式を満たす必要があるニューロシンボリック設定における神経分類器の学習を調べます。この設定における学習は、まず論理式を満たすラベルの組み合わせ(のサブセット)を計算し、その後、それらの組み合わせと分類器のスコアを用いて損失を計算して進めます。一つの手掛かりとなる課題は、ラベルの組み合わせ...
Original: arXiv:2602.07973v1 Announce Type: new Abstract: We study the problem of learning neural classifiers in a neurosymbolic setting where the hidden gold labels of input instances must satisfy a logical f...
最適化を超へる:幾何的不完全性下でのトポロジ的因子分解に基づくインテリジェンスのメトリクス・トポロジー理論
Beyond Optimization: Intelligence as Metric-Topology Factorization under Geometric Incompleteness
arXiv:2602.07974v1 発表 タイプ:新規 要約:現代的な機械学習は、しばしばインテリジェンスを最適化に同一化し、固定された表現幾何形内の解の探求とみなしている。これは静的な環境では機能するが、分布シフト、タスクの再配置、および続編学習(continual learning)といった状況では、軽微なトポロジ的変化が学習された解を無効化し、カオティックな忘却(catastrophic...
Original: arXiv:2602.07974v1 Announce Type: new Abstract: Contemporary ML often equates intelligence with optimization: searching for solutions within a fixed representational geometry. This works in static re...
可検証報酬を用いた構成論理的推論が学習可能になる条件は何時かか
When Is Compositional Reasoning Learnable from Verifiable Rewards?
arXiv:2602.07992v1 Announcement Type: new 摘 要: 可検証報酬 (RLVR) を用いた強化学習を通じて、大型言語モデルにおける構成論理的推論の出現は、直近の実験的成功な主な推進力となった。despite this progress, it remains unclear which compositional problems are learnable ...
Original: arXiv:2602.07992v1 Announce Type: new Abstract: The emergence of compositional reasoning in large language models through reinforcement learning with verifiable rewards (RLVR) has been a key driver o...
Unichain 制約の一般パラメータ化平均報酬制約マルコフ決定過程における後悔解析
Regret Analysis of Unichain Average Reward Constrained MDPs with General Parameterization
arXiv:2602.08000v1 Announce Type: new Abstract: 私達はユニチェーン仮定と一般政策パラメータ化の下で、無限期間平均報酬制約マルコフ決定過程 (CMDPs) を研究します。既存の制約強化学習の後悔解析は、エルゴード性または強い混合時間の仮実に大きく依存しており、遷移状態が存在する場合はこれを成立させることができません。私達はマルチレベルモンテカルロ (M...
Original: arXiv:2602.08000v1 Announce Type: new Abstract: We study infinite-horizon average-reward constrained Markov decision processes (CMDPs) under the unichain assumption and general policy parameterizatio...
常に最高パフォーマンスのモデルを選ぶ必要はない:大規模言語モデルアンサンブル選択の情報理論的視点
Don't Always Pick the Highest-Performing Model: An Information Theoretic View of LLM Ensemble Selection
arXiv:2602.08003v1 発表タイプ:新規 要旨:大規模言語モデル(LLMs)は、全体の信頼性と強固さを高めるためにしばしばアンサンブルされますが、実際にはモデル間の相関は非常に高いです。これにより、LLM アンサンブルを形成する際にどのモデルを選択すべきかという根本的な問いが提起されます。我々は、制約付きアンサンブル選択を、選択されたモデルと真ラベルとの相互情報量を最大化する問題とし...
Original: arXiv:2602.08003v1 Announce Type: new Abstract: Large language models (LLMs) are often ensembled together to improve overall reliability and robustness, but in practice models are strongly correlated...
From $O(mn)$ to $O(r^2)$: Two-Sided Low-Rank Communication for Adam in Distributed Training with Memory Efficiency
arXiv:2602.08007v1 Announce Type: new Abstract: ファウンデーションモデルの規模拡大に伴い、事前学習ではデータ並列最適化への依存がますます高まり、帯域幅に制限された勾配同期が主要なボトルネックとなっています。また、射影ベースの低階最適化器は主にメモリ効率のために設計されてきましたが、通信制限された学習には依然として最適ではなく、一方通信では $m\ti...
Original: arXiv:2602.08007v1 Announce Type: new Abstract: As foundation models continue to scale, pretraining increasingly relies on data-parallel distributed optimization, making bandwidth-limited gradient sy...