Back to list
arxiv_cs_ai 2026年4月24日

DiagramBank: 論文メタデータ付き大規模な図式設計サンプルセットを用いた検索拡張生成

DiagramBank: A Large-scale Dataset of Diagram Design Exemplars with Paper Metadata for Retrieval-Augmented Generation

Translated: 2026/4/24 20:19:56
retrieval-augmented-generationdiagram-bankai-scientistscientific-diagramsmultimodal-retrieval

Japanese Translation

arXiv:2604.20857v1 発表タイプ: cross 要約: 最近の自律型「AI 研究者」システムの進展により、実行を含む科学的論文およびコードの自動記述能力が示されています。しかし、出版級(例:ティーザー図)の科学的図を描画する仍是「エンドツーエンド」の論文生成プロセスにおける主要なボトルネックです。例えば、ティーザー図は戦略的なビジュアルインターフェースとして機能し、派生的なデータプロットの目的とは異なります。複雑なロジックワークフローを直感的かつ好奇心を促す魅力的なグラフィックへと変換させるには、概念的な統合と計画が必要です。既存の AI 研究者システムは通常、このコンポーネントを省略したり、劣る代替案に戻ったりします。このギャップを埋めるために、我々は既存のトップレベルの科学論文から選別された 89,422 件の図式図を含む大規模なセットである DiagramBank を提示します。これは、マルチモーダル検索およびサンプル駆動の科学的図生成に設計されています。DiagramBank は、図と対応する本文中の参照を抽出し、CLIP ベースのフィルタを使用して図式図を標準プロットや自然画像から識別する我々の自動化された選別パイプラインによって開発されました。各インスタンスは、アブストラクト、キャプション、および図参照ペアなどの豊富なる文脈とペアリングされており、異なるクエリ粒度における情報検索を可能にします。DiagramBank をインデックスに即座に適用可能な形式で公開し、サンプル条件付けされたティーザー図の統合を示すための検索拡張生成コードベースを提供します。DiagramBank は https://huggingface.co/datasets/zhangt20/DiagramBank に公開され、コードは https://github.com/csml-rpi/DiagramBank にあります。

Original Content

arXiv:2604.20857v1 Announce Type: cross Abstract: Recent advances in autonomous ``AI scientist'' systems have demonstrated the ability to automatically write scientific manuscripts and codes with execution. However, producing a publication-grade scientific diagram (e.g., teaser figure) is still a major bottleneck in the ``end-to-end'' paper generation process. For example, a teaser figure acts as a strategic visual interface and serves a different purpose than derivative data plots. It demands conceptual synthesis and planning to translate complex logic workflow into a compelling graphic that guides intuition and sparks curiosity. Existing AI scientist systems usually omit this component or fall back to an inferior alternative. To bridge this gap, we present DiagramBank, a large-scale dataset consisting of 89,422 schematic diagrams curated from existing top-tier scientific publications, designed for multimodal retrieval and exemplar-driven scientific figure generation. DiagramBank is developed through our automated curation pipeline that extracts figures and corresponding in-text references, and uses a CLIP-based filter to differentiate schematic diagrams from standard plots or natural images. Each instance is paired with rich context from abstract, caption, to figure-reference pairs, enabling information retrieval under different query granularities. We release DiagramBank in a ready-to-index format and provide a retrieval-augmented generation codebase to demonstrate exemplar-conditioned synthesis of teaser figures. DiagramBank is publicly available at https://huggingface.co/datasets/zhangt20/DiagramBank with code at https://github.com/csml-rpi/DiagramBank.