Back to list
予測市場の予測経済への鍵となるデータセットセット:予測市場のフルライフサイクルのために [実験と分析]
Unlocking the Forecasting Economy: A Suite of Datasets for the Full Lifecycle of Prediction Market: [Experiments \& Analysis]
Translated: 2026/4/24 19:58:56
Japanese Translation
arXiv:2604.20421v1 発表タイプ:新規
摘要:予測市場は、大統領選挙などの将来の事象に対する主張を取引する市場であり、その価格は集団の信念に continuously 更新されたシグナルを提供します。分散型プラットフォームである Polymarket では、市場ライフサイクルは市場作成、トークン登録、取引、オルクルとのインタラクション、紛争、そして最終的な決済を含みます。しかし、対応するデータは異種的なオフチェーンとオンチェーンソースに分散されています。私たちは、Polymarket をベースにした分散型予測市場のフルライフサイクルのための、最初の継続的に維持されるデータセットシリーズを紹介します。大規模なクロスソース統合、不完全な連結、そして継続的な同期の課題に対処するために、私たちは市場メタデータ、充填レベルの取引記録、そしてオルクル解決イベントの 3 つの規範的なレイヤーを統合する統一された関係データシステムを構築しました。このデータセットは 2020 年 10 月から 2026 年 3 月までをカバーし、77 万の市場記録、9.43 億の充填記録、そして 200 万のオルクルイベントを包含しています。私たちはデータモデル、収集パイプライン、そして再現性と拡張性を可能にする整合性メカニズムを説明し、市場活動の描記分析と NBA の出力校准、CPI の期待値再構築という 2 つのダウンストリームのケーススタディを通じて、その有用性を示しています。
Original Content
arXiv:2604.20421v1 Announce Type: new
Abstract: Prediction markets are markets for trading claims on future events, such as presidential elections, and their prices provide continuously updated signals of collective beliefs. In decentralized platforms such as Polymarket, the market lifecycle spans market creation, token registration, trading, oracle interaction, dispute, and final settlement, yet the corresponding data are fragmented across heterogeneous off-chain and on-chain sources. We present the first continuously maintained dataset suite for the full lifecycle of decentralized prediction markets, built on Polymarket. To address the challenges of large-scale cross-source integration, incomplete linkage, and continuous synchronization, we build a unified relational data system that integrates three canonical layers: market metadata, fill-level trading records, and oracle-resolution events, through identifier resolution, on-chain recovery, and incremental updates. The resulting dataset spans October 2020 to March 2026 and comprises more than 770 thousand market records, over 943 million fill records, and nearly 2 million oracle events. We describe the data model, collection pipeline, and consistency mechanisms that make the dataset reproducible and extensible, and we demonstrate its utility through descriptive analyses of market activity and two downstream case studies: NBA outcome calibration and CPI expectation reconstruction.