3496 articles

目標ネットワークを使用しない分布値推定に基づく頑健な品質多様性最適化

Distributional Value Estimation Without Target Networks for Robust Quality-Diversity

arXiv:2604.20381v1 発表タイプ：新要約：品質多様性（QD）アルゴリズムは多様な技能のレパートリーを発見することに優れていますが、サンプル効率が悪く、複雑な移動タスクを解決するには通常数千万環境ステップが必要とされます。近年の強化学習（RL）の進歩により、高アップデート・データ比率（UTD）がアクター・クリティック学習を加速することが示されました。しかし、標準的な高 UTD ア...

Original: arXiv:2604.20381v1 Announce Type: new Abstract: Quality-Diversity (QD) algorithms excel at discovering diverse repertoires of skills, but are hindered by poor sample efficiency and often require tens...

目標ネットワークを使用しない分布値推定に基づく頑健な品質多様性最適化

DeFi のイベント認識型予測への道：チェーン上で動作する自動価格形成プロトコルから得られる洞察

コンディショナル拡散モデルによる新規製品ライフサイクルの冷開始予報

R2IF: Reasoning と決定をコンポジット報酬で整える、解釈可能な LLM 関数呼出しのためのコンポジション報酬に基づく学習

LoRA によって誘発されるロジットシフトの形式化：技術的ノート

SPD 多辺形上の接束神経ネットワーク：2 次幾何学的表現学習

生成モデルを用いた合成飛行データ生成

飛行回避記録の不均衡データに対する生成拡張：飛行情報システムにおける多目的最適化フレームワーク

神経表現における自己次元推定の再考

初期の急性腎機能障害の予測のための適応的ミューテーションロックを備えた Causal-Transformer

uLEAD-TabPFN: 条件付き依存関係の違反を検出する PFN ベースの不安定性感知型依存関係ベースのアノーマリー検出

ツーステージグラフスパージファシケーションを用いた巡回セールスマン問題における機械学習

Deep Networks に対する幾何的階層近似速度 (Geometric Layer-wise Approximation Rates for Deep Networks)

Self-Guidance を用いた大規模な自己対戦の拡張

ACT: Temporal Disentanglement と Structural Purification を介したクロスセクション株式ランキングのためのアンチクロスツークラーニング

一般化拡散過程の一类に対する構造感受性バリエーション学習

物理学強化型ディープラーニングを用いたリチウムイオン電池の能動的熱暴走予報

lever：サポート制約下での推論時政策再利用

Cover は Robbins と出会い、有界データへのベットを賭けた時: 最悪ケース regret の $O( rac{ ext{ln} n}$) と、確率 1 regret の $O( ext{ln} ext{ln} n)$

SMART: Multi-Task Learning におけるスペクトル転移アプローチ

Cover は Robbins と出会い、有界データへのベットを賭けた時: 最悪ケース regret の $O(rac{ ext{ln} n}$) と、確率 1 regret の $O( ext{ln} ext{ln} n)$