3496 articles

MARTI-MARS$^2$: 強化学習を活用したコード生成におけるマルチエージェント自己検索の拡張

MARTI-MARS$^2$: Scaling Multi-Agent Self-Search via Reinforcement Learning for Code Generation

arXiv:2602.07848v1 Announce Type: new 【要約】大規模言語モデル（LLM）の複雑な推論能力は大きな関心を集めていますが、単一エージェントシステムでは、コード生成のような複雑なタスクにおいて内在する性能の限界に直面することが多いです。マルチエージェントの協力は、これらの限界を乗り越える有望なアプローチを提供しています。ただし、既存のフレームワークは、提示物ベー...

Original: arXiv:2602.07848v1 Announce Type: new Abstract: While the complex reasoning capability of Large Language Models (LLMs) has attracted significant attention, single-agent systems often encounter inhere...

MARTI-MARS$^2$: 強化学習を活用したコード生成におけるマルチエージェント自己検索の拡張

パターンの一致性を保証したデータセンター用動的負荷モデルの模式適合定量化

Langevin Dynamics を用いた直接 Soft-Policy サンプリング

Harpoon: Conditional Tabular Diffusionのための汎用的マンニフォールドガイド

GRAFT: 生存解析における分類と校准の解耦

Offline 強化学習における効率的な反探求手法：VQVAE と Fuzzy Clustering を活用

Safet Alignmen as Continual Learning: Alignmen Tax の軽減のための直交勾配投影

大規模言語モデルを有するベイズ最適化における適応的取得関数選択

AceGRPO: 自律型機械学習エンジニアリングのための適応的カリキュラム強化グループ相対政策最適化

CausalCompass: 誤設定シナリオにおける時系列因果発見の頑健性評価

エネルギー保存則を用いたフローマッチングの物理学的視角

Tabular Biomedical データを用いた早期パーキンソン病検出のための Attention ベースのディープ学習

学習の熱力学理論第二部：臨界期間の閉鎖と継続的学習の失敗

解像可能なマルチタスク類似度測定：累積局所効果と加重されたフレッチャー距離の統合

ロジックの表現空間を活用したニューロシンボル学習の改善について

最適化を超へる：幾何的不完全性下でのトポロジ的因子分解に基づくインテリジェンスのメトリクス・トポロジー理論

可検証報酬を用いた構成論理的推論が学習可能になる条件は何時かか

Unichain 制約の一般パラメータ化平均報酬制約マルコフ決定過程における後悔解析

常に最高パフォーマンスのモデルを選ぶ必要はない：大規模言語モデルアンサンブル選択の情報理論的視点

From $O(mn)$ to $O(r^2)$: Two-Sided Low-Rank Communication for Adam in Distributed Training with Memory Efficiency