Back to list
SkillLearnBench: 実世界タスクにおけるアジレントースキルの生成に焦点を当てた継続学習方法のベンチマーク評価
SkillLearnBench: Benchmarking Continual Learning Methods for Agent Skill Generation on Real-World Tasks
Translated: 2026/4/24 20:03:32
Japanese Translation
arXiv:2604.20087v1 Announce Type: cross
要旨:スキルは、LLM(大規模言語モデル)エージェントがカスタム指示、ワークフロー、およびツールを使用して複雑な現実世界のタスクを遂行するために事実上の手段となっていますが、どのように自動的にかつ効果的にそれを学習できるかが不明確です。私たちは、20 個の検証済みスキル依存タスク(実世界のスキル分類法から派生した 15 のサブドメインにわたる)を構成し、スキル品質、実行軌道、タスク結果の 3 つのレベルで評価する、継続学習方法の評価に初めて適用される SkillLearnBench を提唱します。このベンチマークを使用し、エージェントの経験からスキルを生成するためのワンショット、自己/教師フィードバック、およびスキル作成者の手法など、最近の継続学習技術の評価を行いました。私たちの研究によると、すべての継続学習方法がスキルなし基準より改善されることを確認しましたが、一貫した向上は依然として elusive(到達しにくい)であり、どの手法もすべてのタスクと LLM(大規模言語モデル)で主導的地位に立ち、より強力な LLM にスケーリングしても必ずしも有効ではありませんが、明確で再利用可能なワークフローを持つタスクは改善され、オープンエンドのタスクにおいては苦戦します。より強力な LLM バックボーンを使用するだけでは、一貫してより良いスキルが得られるわけでもありません。私たちの分析は、継続学習の複数の反復が外部フィードバックを通じて真の改善を促進し、自己フィードバックのみが再帰的なドリフトを引き起こすと示唆しています。私たちのデータとコードは、https://github.com/cxcscmu/SkillLearnBench にオープンソース化されており、自動スキル生成および継続学習技術のさらなる研究を可能にしています。
Original Content
arXiv:2604.20087v1 Announce Type: cross
Abstract: Skills have become the de facto way to enable LLM agents to perform complex real-world tasks with customized instructions, workflows, and tools, but how to learn them automatically and effectively remains unclear. We introduce SkillLearnBench, the first benchmark for evaluating continual skill learning methods, comprising 20 verified, skill-dependent tasks across 15 sub-domains derived from a real-world skill taxonomy , evaluated at three levels: skill quality, execution trajectory, and task outcome. Using this benchmark, we evaluate recent continual learning techniques, those leveraging one-shot, self/teacher feedback, and skill creator to generate skills from agent experiences. We find that all continual learning methods improve over the no-skill baseline, yet consistent gains remain elusive: no method leads across all tasks and LLMs, and scaling to stronger LLMs does not reliably help. Continual learning improves tasks with clear, reusable workflows but struggles on open-ended tasks, and using stronger LLM backbones does not consistently produce better skills. Our analysis also revealed that multiple iterations in continual learning facilitate genuine improvement via external feedback, whereas self-feedback alone induces recursive drift. Our data and code are open-source at https://github.com/cxcscmu/SkillLearnBench to enable further studies of automatic skill generation and continual learning techniques.