Back to list
vla-eval:Visioん・言語・行動モデルの統合評価ハルネス
vla-eval: A Unified Evaluation Harness for Vision-Language-Action Models
Translated: 2026/4/20 11:16:28
Japanese Translation
arXiv:2603.13966v2 Announce Type: replace
Abstract:視覚・言語・行動 (VLA) モデルは、複数のシミュレーションベンチマークにわたって評価されており、その数は増大している。しかし、各ベンチマークの評価パイプラインに追加するには、互換性が異なる依存関係の解決、未定義された評価プロトコルの一致、ドキュメントにない前処理の逆エンジニアリングが必要となる。この負担はモデル数とベンチマーク数が増えるにつれて増大するため、多くのチームにとって包括的な評価は現実的でない。私たちは、モデル推論とベンチマーク実行を、Docker ベースの環境隔離を用いた WebSocket+msgpack プロトコルを通じて解凍することで、このベンチマーカーごとのコストを排除するオープンソース評価ハルネス「vla-eval」を提案する。モデルは単一の predict() 実装で一度統合され、ベンチマークは 4 つのメソッドのインターフェースを通じて一度統合されることで、完全なクロス評価行列が自動的に動作する。このフレームワークは、14 つのシミュレーションベンチマークと 6 つのモデルサーバーをサポートしている。エピソードシャッディングとバッチ推論による並列評価では、壁時で最大 47 倍の高速化が可能になり、2,000 件の LIBERO エピソードを約 18 分で完了する。フレームワークの有効性を検証するために、私たちは 6 つの VLA コードベースと 3 つのベンチマークにおける公開されたスコアを再現し、以前も知られていなかった課題を記録した。さらに、17 つのベンチマークにわたる 657 件の公開結果を集計した VLA レーダーボードもリリースした。フレームワーク、評価構成、およびすべての再現結果は、https://github.com/allenai/vla-evaluation-harness および https://allenai.github.io/vla-evaluation-harness/leaderboard に公開されている。
Original Content
arXiv:2603.13966v2 Announce Type: replace
Abstract: Vision-Language-Action (VLA) models are increasingly evaluated across multiple simulation benchmarks, yet adding each benchmark to an evaluation pipeline requires resolving incompatible dependencies, matching underspecified evaluation protocols, and reverse-engineering undocumented preprocessing. This burden scales with the number of models and benchmarks, making comprehensive evaluation impractical for most teams. We present vla-eval, an open-source evaluation harness that eliminates this per-benchmark cost by decoupling model inference from benchmark execution through a WebSocket+msgpack protocol with Docker-based environment isolation. Models integrate once by implementing a single predict() method; benchmarks integrate once via a four-method interface; the full cross-evaluation matrix works automatically. The framework supports 14 simulation benchmarks and six model servers. Parallel evaluation via episode sharding and batch inference achieves up to 47x wall-clock speedup, completing 2,000 LIBERO episodes in ~18 minutes. To validate the framework, we reproduce published scores across six VLA codebases and three benchmarks, documenting previously undocumented pitfalls. We additionally release a VLA leaderboard aggregating 657 published results across 17 benchmarks. Framework, evaluation configs, and all reproduction results are publicly available at https://github.com/allenai/vla-evaluation-harness and https://allenai.github.io/vla-evaluation-harness/leaderboard.