Back to list
arxiv_cs_ai 2026年4月24日

SQLyzr: テキストから SQL 生成のための包括的なベンチマークおよび評価プラットフォーム

SQLyzr: A Comprehensive Benchmark and Evaluation Platform for Text-to-SQL

Translated: 2026/4/24 20:24:36
text-to-sqlbenchmarklarge-language-modelsevaluation-platformdatabase

Japanese Translation

arXiv:2604.21214v1 Announce Type: cross 要旨: ラーグ・ランゲージ・モデル (LLM) の採用により、テキストから SQL 生成のモデルが劇的に改善され、それが現実世界のアプライーションにおいて広く使用されるようになった。多くのテキストから SQL 生成のモデルを評価するためのベンチマークが存在するものの、彼らはしばしば単一の集計スコアに頼るだけでなく、現実的な環境での評価を欠き、異なるクエリタイプにわたるモデルの振る舞いに対する限定的な洞察力しか提供しない。本研究において、我々はテキストから SQL 生成のモデルのための包括的なベンチマークおよび評価プラットフォーム、SQLyzr を提示する。SQLyzr は、生成されたクエリの複数の側面を捕捉する多様なセットの評価指標を組み込み、リアルな世界 SQL ユースのパターンおよびデータベースのスケーリングとの負荷合わせを通じて、より現実的な評価を可能にする。また、我々は、ユーザーがテキストから SQL 生成のモデルをよりよく診断し、改善することを可能にするクエリの細かい分類、エラー分析、および負荷の拡張をサポートする。このデモは、これらの機能をインタラクティブな体験を通じて示す。SQLyzr のグラフィカルなインターフェースを通じて、ユーザーは評価設定をカスタマイズし、細かいレポートを分析し、プラットフォームの追加の機能を探索することができる。我々は、SQLyzr が既存のベンチマークの重要な制限に対処することにより、テキストから SQL 生成のモデルの評価と反復的な改善を容易にすると考えている。SQLyzr のソース・コードは https://github.com/sepideh-abedini/SQLyzr に入手できる。

Original Content

arXiv:2604.21214v1 Announce Type: cross Abstract: Text-to-SQL models have significantly improved with the adoption of Large Language Models (LLMs), leading to their increasing use in real-world applications. Although many benchmarks exist for evaluating the performance of text-to-SQL models, they often rely on a single aggregate score, lack evaluation under realistic settings, and provide limited insight into model behaviour across different query types. In this work, we present SQLyzr, a comprehensive benchmark and evaluation platform for text-to-SQL models. SQLyzr incorporates a diverse set of evaluation metrics that capture multiple aspects of generated queries, while enabling more realistic evaluation through workload alignment with real-world SQL usage patterns and database scaling. It further supports fine-grained query classification, error analysis, and workload augmentation, allowing users to better diagnose and improve text-to-SQL models. This demonstration showcases these capabilities through an interactive experience. Through SQLyzr's graphical interface, users can customize evaluation settings, analyze fine-grained reports, and explore additional features of the platform. We envision that SQLyzr facilitates the evaluation and iterative improvement of text-to-SQL models by addressing key limitations of existing benchmarks. The source code of SQLyzr is available at https://github.com/sepideh-abedini/SQLyzr.