Back to list
arxiv_cs_ai 2026年2月10日

データダイバレンシズ パートI:科学的数据を元にする学習の価値を解釈する

Data Darwinism Part I: Unlocking the Value of Scientific Data for Pre-training

Translated: 2026/3/7 9:05:15

Japanese Translation

arXiv:2602.07824v1 投稿種類:新しい 要約:データ品質がモデルパフォーマンスに影響しますが、統一的な処理フレームワークは不足しています。私たちはData Darwinism tenレベルの分類(L0-L9)を紹介し、データとモデルの共同進化という観念を解釬しました:先端的なモデルは後に世代されるスイートなデータを作ります。科学文献を用いてDarwin-Scienceという900Bトークン叢(レベルL0-L5)を構築しました。私たち彼の原始的で抽象的である純粋な科学テキストへの学習ギャップを認識し、これらを補うためのL4 (生成(refinement)とL5 (認知(cognitive)Completionを Frontier LLMsを使って(前線のLLMsを使って)解釬します。このギャップが生かされました。我々は科学的内容を取り除いたために、 contamination-free の基準となる daVinci-origin-3B/7B モデルを再訓練し始めて、それから600Bトークンへの追加練習を受け入れました。これにより、20以上のベンチマークでDarwin Scienceは基準より+2.12(3B)点と +2.95(7B)点引き上げられ、domain-align テーマでの20のバッファースコアが +5.60と +8.40点まで向上しました。統一的な進化をL5層へと達すると総合で+1.36のパフォーマンス改善を確認し、上流階層である処理が潜在的に価値あるデータを開くことを確認しました。私たちはDarwin Science の叢と daVinci-origin モデルを公開して、原理的であり同時に共進化プロセスへの発達を助けるものとなっています。

Original Content

arXiv:2602.07824v1 Announce Type: new Abstract: Data quality determines foundation model performance, yet systematic processing frameworks are lacking. We introduce Data Darwinism, a ten-level taxonomy (L0-L9) that conceptualizes data-model co-evolution: advanced models produce superior data for next-generation systems. We validate this on scientific literature by constructing Darwin-Science, a 900B-token corpus (L0-L5). We identify a learnability gap in raw scientific text, which we bridge via L4 (Generative Refinement) and L5 (Cognitive Completion) using frontier LLMs to explicate reasoning and terminology. To ensure rigorous attribution, we pre-trained daVinci-origin-3B/7B models from scratch, excluding scientific content to create contamination-free baselines. After 600B tokens of continued pre-training, Darwin-Science outperforms baselines by +2.12 (3B) and +2.95 (7B) points across 20+ benchmarks, rising to +5.60 and +8.40 points on domain-aligned tasks. Systematic progression to L5 yields a +1.36 total gain, confirming that higher-level processing unlocks latent data value. We release the Darwin-Science corpus and daVinci-origin models to enable principled, co-evolutionary development.