Back to list
arxiv_cs_lg 2026年4月24日

ユーザー学習を考慮した効率的なマルチコホート推論:長期効果と寿命価値の A/B テストにおける評価

Efficient Multi-Cohort Inference for Long-Term Effects and Lifetime Value in A/B Testing with User Learning

Translated: 2026/4/24 20:00:47
ab-testingmachine-learninguser-churnlongitudinal-analysisexperimental-evaluation

Japanese Translation

arXiv:2604.20777v1 Announce Type: new 要約:ストリーミングプラットフォームにおける離脱(チャーン)は莫大な損失をもたらしますが、A/B テストは一般的に、実験の限定的な期間内で観測された結果のみを用いて評価されます。短時間および予測される長期のエンゲージメント指標を両方考慮しても、処理(タレント)がユーザーの定着に及ぼす影響を正しく捉えられない可能性があります。したがって、介入は短期間で有益で長期的には中立的であっても、ユーザーが離脱した結果、コントロール群よりも総価値が低いままになり得ます。 この限界に対処するため、我々はユーザー学習を考慮した短時間マルチコホート A/B テストにおいて、長期処理効果(LTE)と残存寿命価値変化(ΔERLV)の推計を可能にする手法を導入しました。時間依存的な処理効果を効率的に推定するために、文献にある標準的手法よりも低分散である複数のコホート推計を組み合わせる逆分散重量法を導入しました。その後、推定された処理経路はパラメータによる減衰モデルとしてモデル化され、漸近処理効果と時間経過での累積価値を回復させることが可能になります。 我々の枠組は、単一の実験内で定常状態の影響と残存ユーザー価値の同時評価を可能にします。実証結果は、LTE と ΔERLV の推計精度の向上を示し、短期または長期指標のいずれか一方だけを信頼することによる不正確な製品意思決定に陥る状況を特定しました。

Original Content

arXiv:2604.20777v1 Announce Type: new Abstract: In streaming platforms churn is extremely costly, yet A/B tests are typically evaluated using outcomes observed within a limited experimental horizon. Even when both short- and predicted long-term engagement metrics are considered, they may fail to capture how a treatment affects users' retention. Consequently, an intervention may appear beneficial in the short term and neutral in the long term while still generating lower total value than the control due to users churn. To address this limitation, we introduce a method that estimates long-term treatment effects (LTE) and residual lifetime value change ($\Delta ERLV$) in short multi-cohort A/B tests under user learning. To estimate time-varying treatment effects efficiently, we introduce an inverse-variance weighted estimator that combines multiple cohorts estimates, reducing variance relative to standard approaches in the literature. The estimated treatment trajectory is then modeled as a parametric decay to recover both the asymptotic treatment effect and the cumulative value generated over time. Our framework enables simultaneous evaluation of steady-state impact and residual user value within a single experiment. Empirical results show improved precision in estimating LTE and $\Delta ERLV$ and identify scenarios in which relying on either short-term or long-term metrics alone would lead to incorrect product decisions.