Back to list
EvoTest:自己進化するエージェントシステムの為替時学習のための進化論的アプローチ
EvoTest: Evolutionary Test-Time Learning for Self-Improving Agentic Systems
Translated: 2026/4/20 11:16:05
Japanese Translation
arXiv:2510.13220v2 Announce Type: replace
要約:現在の AI エージェントの根本的な限界は、テスト時に複雑なスキルを即座に学習できない点であり、新しい環境では「巧みながっかりしたインターン」のような振る舞いをすることが多い。これにより、実用的な有用性は大きく制限されている。この課題を系統的に測定し、進展を推進するために、まず Jericho Test-Time Learning (J-TTL) ベンチマークを導入した。J-TTL は、エージェントが複数の連続エピソードをプレイし、エピソードごとにパフォーマンスを向上させる必要がある新しい評価セットアップである。J-TTL において、既存の適応手法(自己反省、記憶、強化学習など)は困難に直面することがわかった。我がベンチマークが提起する課題に対処するために、私たちはエピソード毎にエージェント全体を進化させることで、フィニチューニングや勾配なしにエージェントを改善する EvoTest という進化論的テスト時学習フレームワークを提示した。EvoTest は 2 つの役割を持つ:ゲームをプレイする Actor エージェントと、エピソードトランスクライブを分析して次の実行への改訂設定を提案する Evolver エージェントである。この設定はプロンプトを書き換え、有効な状態 - 選択動作のログによるメモリを更新、ハイパーパラメータ进行调整、ツール使用のルーツを学習する。我が J-TTL ベンチマークにおいて、EvoTest は一貫してパフォーマンスを向上させ、自己反省や記憶だけのベースラインだけでなく、より複雑なオンラインフィニチューニング手法を上回っている。特に、私々の方法は Detective と Library の 2 つのゲームを勝利した唯一の方法であり、すべてのベースラインはどのゲームも勝利しなかった。
Original Content
arXiv:2510.13220v2 Announce Type: replace
Abstract: A fundamental limitation of current AI agents is their inability to learn complex skills on the fly at test time, often behaving like "clever but clueless interns" in novel environments. This severely limits their practical utility. To systematically measure and drive progress on this challenge, we first introduce the Jericho Test-Time Learning (J-TTL) benchmark. J-TTL is a new evaluation setup where an agent must play the same game for several consecutive episodes, attempting to improve its performance from one episode to the next. On J-TTL, we find that existing adaptation methods like reflection, memory, or reinforcement learning struggle. To address the challenges posed by our benchmark, we present EvoTest, an evolutionary test-time learning framework that improves an agent without any fine-tuning or gradients-by evolving the entire agentic system after every episode. EvoTest has two roles: the Actor Agent, which plays the game, and the Evolver Agent, which analyzes the episode transcript to propose a revised configuration for the next run. This configuration rewrites the prompt, updates memory by logging effective state-action choices, tunes hyperparameters, and learns the tool-use routines. On our J-TTL benchmark, EvoTest consistently increases performance, outperforming not only reflection and memory-only baselines but also more complex online fine-tuning methods. Notably, our method is the only one capable of winning two games (Detective and Library), while all baselines fail to win any.