Back to list
AIRS-Bench: AI研究分野の先端的な科学アジェンダのためのタスク-suite
AIRS-Bench: a Suite of Tasks for Frontier AI Research Science Agents
Translated: 2026/2/14 7:08:05
Japanese Translation
LLM アジェンダは、科学的研究の進展に向けて大きなpromiseを持っています。これを加速するためには、我们導入了AIRS-Bench(AI研究科学ベンチマーク)、これは状態を上達させる機学的学习論文から20のタスクをソースしたsuiteです。これらのタスクは、多様な分野に渡って存在しています、言語モデル、数学、生物情報学、時点時系列予測が含まれます。AIRS-Benchタスクでは、研究ライフサイクル全体での能力を評価します。そして概念の生成、試験分析と再編集といったものです。また、基準コードを提供することなく容易な評価が可能になります。AIRS-Benchタスクは柔軟で、新しいタスクの導入や異なるアジェンダフレームワーク間での厳密な比較が簡単に実現可能です。ベースラインは優れた先端モデルを使って、同時進行と並行を伴うシーケンシャルフロートを使用して設定されました。評価結果を示すとその我々のタスクは人間のSOTAに超越しています、しかし16件の試験で彼らはそれを追いません。また、さらに高まる性能を持つ可能性を秘めた下請けのタスクではそれらしい到達しません。これらを通じての結果はAIRS-Benchは完全には満たされていない、さらなる改善が望まれることを示します。我々はを開源するAIRS-Benchタスク定義と評価コードを持ってAI研究分野における自在の科学を促進するために開きです。
Original Content
arXiv:2602.06855v2 Announce Type: replace
Abstract: LLM agents hold significant promise for advancing scientific research. To accelerate this progress, we introduce AIRS-Bench (the AI Research Science Benchmark), a suite of 20 tasks sourced from state-of-the-art machine learning papers. These tasks span diverse domains, including language modeling, mathematics, bioinformatics, and time series forecasting. AIRS-Bench tasks assess agentic capabilities over the full research lifecycle -- including idea generation, experiment analysis and iterative refinement -- without providing baseline code. The AIRS-Bench task format is versatile, enabling easy integration of new tasks and rigorous comparison across different agentic frameworks. We establish baselines using frontier models paired with both sequential and parallel scaffolds. Our results show that agents exceed human SOTA in four tasks but fail to match it in sixteen others. Even when agents surpass human benchmarks, they do not reach the theoretical performance ceiling for the underlying tasks. These findings indicate that AIRS-Bench is far from saturated and offers substantial room for improvement. We open-source the AIRS-Bench task definitions and evaluation code to catalyze further development in autonomous scientific research.