Back to list
SemanticAgent: セマンティックに意識されたテキストから SQL へのデータ合成のためのフレームワーク
SemanticAgent: A Semantics-Aware Framework for Text-to-SQL Data Synthesis
Translated: 2026/4/24 20:16:46
Japanese Translation
arXiv:2604.21414v1 発表タイプ:新
サマリー:既存のテキストから SQL への合成パイプラインでは、実行可能性とセマンティック的な妥当性が混同されています。構文チェックと実行ベースの検証だけでは、データベースのセマンティクスを違反しても実行に成功するクエリが保たれる可能性があります。これらの制限を解消するため、我々はセマンティックに意識された合成フレームワークである SemanticAgent を提案します。SemanticAgent は、分析、合成、検証という 3 つの専門モジュールを備えた、3 段階のプロトコル(セマンティック分析、段階的合成、診断的洗練)を組織化しています。これにより、SemanticAgent は単独の実行ベースの検証を、可視化可能な推論プロセスへと変換します。我々のフレームワークは、セマンティッククオリティ評価において先駆的な合成手法を常に上回る合成データを生成し、特にセマンティック的に要求が高いベンチマークでは、より強い Downstream Fine-tuning パフォーマンスをもたらします。
Original Content
arXiv:2604.21414v1 Announce Type: new
Abstract: Existing text-to-SQL synthesis pipelines still conflate executability with semantic validity: syntactic checks and execution-based validation can retain queries that execute successfully while violating database semantics. To address these limitations, we propose SemanticAgent, a semantic-aware synthesis framework. SemanticAgent organizes synthesis around three specialized modules: an analyzer, a synthesizer, and a verifier. Through a three-stage protocol of semantic analysis, stepwise synthesis, and diagnostic refinement, SemanticAgent transforms execution-based validation alone into a traceable reasoning process. Our framework generates synthetic data that consistently outperforms prior synthesis methods under semantic-quality evaluation, leading to stronger downstream fine-tuning performance, especially on semantically demanding benchmarks.