Back to list
AI 生成運動処方におけるモデル間の一貫性:3 つの大型言語モデルをまたいだ繰り返し生成研究
Cross-Model Consistency of AI-Generated Exercise Prescriptions: A Repeated Generation Study Across Three Large Language Models
Translated: 2026/4/24 20:35:46
Japanese Translation
arXiv:2604.19598v2 Announce Type: replace-cross
要約: 本稿は、大型言語モデル (LLM) である GPT-4.1, Claude Sonnet 4.6, Gemini 2.5 Flash の 3 つモデルにおいて、温度 (temperature)=0 の条件の下で、運動処方の生成出力の繰り返し生成の一貫性を比較した。各モデルは 6 つの臨床シナリオについてそれぞれ 20 回生成し、合計 360 回の出力を、意味的類似度、出力再現性、FITT 分類、安全性表現の 4 次元の分析対象とした。平均的な意味的類似度は、GPT-4.1 (0.955) で最高であり、それに続き Gemini 2.5 Flash (0.950)、Claude Sonnet 4.6 (0.903) であることが確認された (H = 458.41, p < .001)。このスコアは、GPT-4.1 が完全な一意な出力 (100%) を生み出し、安定した意味的なコンテンツを保持する一方で、Gemini 2.5 Flash は顕著な出力の反復を示し (一意な出力 27.5%)、その高い類似度スコアが一貫した推理ではなくテキストの重複から生じていることを示唆している。同様のデコード設定であっても、モデルごとに根本的に異なる一貫性プロファイルが得られることを意味し、単一出力の評価では捉えられない。安全性表現は全てのモデルで天井レベルに達し、それを区別指標として利用する意義は限られていることが確認された。これらの結果は、モデルの選択が単なる技術的決定ではなく臨床的決定であるべきであり、LLM ベースの運動処方システムを信頼して運用するには、繰り返し生成条件下での出力挙動を核心的な基準として扱うべきであることを示している。
Original Content
arXiv:2604.19598v2 Announce Type: replace-cross
Abstract: This study compared repeated generation consistency of exercise prescription outputs across three large language models (LLMs), specifically GPT-4.1, Claude Sonnet 4.6, and Gemini 2.5 Flash, under temperature=0 conditions. Each model generated prescriptions for six clinical scenarios 20 times, yielding 360 total outputs analyzed across four dimensions: semantic similarity, output reproducibility, FITT classification, and safety expression. Mean semantic similarity was highest for GPT-4.1 (0.955), followed by Gemini 2.5 Flash (0.950) and Claude Sonnet 4.6 (0.903), with significant inter-model differences confirmed (H = 458.41, p < .001). Critically, these scores reflected fundamentally different generative behaviors: GPT-4.1 produced entirely unique outputs (100%) with stable semantic content, while Gemini 2.5 Flash showed pronounced output repetition (27.5% unique outputs), indicating that its high similarity score derived from text duplication rather than consistent reasoning. Identical decoding settings thus yielded fundamentally different consistency profiles, a distinction that single-output evaluations cannot capture. Safety expression reached ceiling levels across all models, confirming its limited utility as a differentiating metric. These results indicate that model selection constitutes a clinical rather than merely technical decision, and that output behavior under repeated generation conditions should be treated as a core criterion for reliable deployment of LLM-based exercise prescription systems.