Back to list
大規模言語モデルを用いた「シリコンサンプル」の作成における解析的柔軟性の脅威
The threat of analytic flexibility in using large language models to simulate human data
Translated: 2026/4/20 11:17:34
Japanese Translation
arXiv:2509.13397v3 Announce Type: replace-cross
摘要:社会科学家は、現在、大規模言語モデルを使用して、人間の実験対象者にとって代わるための合成データセットである「シリコンサンプル」を作成しています。しかし、これらのサンプルを作成するには、モデル選択、サンプリングパラメータ、プロンプト形式、および提供される人口統計的または文脈的な情報の量など、多くの解析的选择が必要です。2 つの研究を通じて、これらの選択がシリコンサンプルと人間データとの一致に実質的な影響を与えるかどうかを検討しました。Study 1 では、2 つの社会科学心理学的尺度を使用して制御された事例研究のために 252 つのシリコンサンプル構成を作成し、構成が参加者のランク付け、レスポンス分布、および尺度間の相関を再構築するかどうかを評価しました。すべての 3 つの基準において構成が大幅に異なる結果となり、一つの次元で良好なパフォーマンスを示す構成は、他では不良なパフォーマンスを示す傾向がありました。Study 2 では、この分析を公開されたシリコンサンプル利用例に拡張し、Argyle et al. (2023) の Study 3 を 66 つの代替構成で再評価しました。人間の関連構造とシリコンの関連構造との相関は構成によって大きく異なり、r = .23 から r = .84 まで変化する結果となりました。これらの研究の結果は、異なる正当化可能な構成選択がシリコンサンプルの忠実性に関する結論を実質的に変える可能性があることを示しています。私はシリコンサンプルの使用における解析的柔軟性の脅威にさらなる注意を呼びかけ、研究者がこの脅威を減らすために採用することができる戦略を概説します。
Original Content
arXiv:2509.13397v3 Announce Type: replace-cross
Abstract: Social scientists are now using large language models to create "silicon samples": synthetic datasets intended to stand in for human respondents. However, producing these samples requires many analytic choices, including model selection, sampling parameters, prompt format, and the amount of demographic or contextual information provided. Across two studies, I examine whether these choices materially affect correspondence between silicon samples and human data. In Study 1, I generated 252 silicon-sample configurations for a controlled case study using two social-psychological scales, evaluating whether configurations recovered participant rankings, response distributions, and between-scale correlations. Configurations varied substantially across all three criteria, and configurations that performed well on one dimension often performed poorly on another. In Study 2, I extended this analysis to a published silicon-sample use case by re-examining Argyle et al.'s (2023) Study 3 using 66 alternative configurations. Correlations between human and silicon association structures differed substantially across configurations, from r = .23 to r = .84. Taken together, the results from these studies demonstrate that different defensible configuration choices can materially alter conclusions about the fidelity of silicon samples. I call for greater attention to the threat of analytic flexibility in using silicon samples and outline strategies that researchers may adopt to reduce this threat.