Back to list
In-Context Distillation with Self-Consistency Cascades: A Simple, Training-Free Way to Reduce LLM Agent Costs
In-Context Distillation with Self-Consistency Cascades: A Simple, Training-Free Way to Reduce LLM Agent Costs
Translated: 2026/4/20 11:04:36
Japanese Translation
arXiv:2512.02543v2 Announce Type: replace
要大量部署 LLM(Large Language Model)エージェント時、品質とコストのトレードオフをどう選ぶかが課題となる。既存のコスト削減手法は、人的時間のボトルネックを持たずに迅速な反復可能なアジリティ(Agility)を維持できないという欠点がある。プロンプトエンジニアリングは脆く反復が遅くなる一方、ファインチューニングは数日かけての訓練と固定された設計へのコミットメントが必要であり、反復型ワークフローや時間制限のあるバッチジョブには非現実的である。我々は、確立された推論時手法(動的 in-context learning と self-consistency cascades)を利用することで、コストと精度のパレート frontier をシフトしつつアジリティを維持できることを示した。実践者は、教師モデルを小さくしたタスクサブセットでデモを収集し、すぐに安価な学生モデルを残りのタスクにデプロイする。各ステップで、システムは教師モデルのデモを in-context example として検索し、複数の学生サンプルが一致する場合は進行し、不一致の場合は教師モデルに fallback する。これにはプロンプトエンジニアリングや訓練は不要である。ALFWorld では、0.059 から 0.024 へと単エピソードあたりのコストを 2.5 倍削減した上で教師モデルの精度に一致した。AppWorld では、精度を 79% 復元する一方でコストを 3.5 倍削減した。私達の経験則的な分析は、教師データベースサイズ、デモセットサイズ、検索戦略、および cascades 閾値に関する重要な設計選択への示唆を与えている。これらの分析は、人間の開発速度を犠牲にしずれたままコストパフォーマンスのトレードオフを解決するための推論時のレバレッジを示している。
Original Content
arXiv:2512.02543v2 Announce Type: replace
Abstract: Deploying LLM agents at scale typically requires choosing between quality and cost. Existing cost-reduction approaches fail to preserve agility: the ability to iterate rapidly without human time bottlenecks. Prompt engineering is brittle and slows iteration, while fine-tuning requires multi-day training and commitment to fixed designs; both are impractical for iterative workflows and time-sensitive batch jobs. We demonstrate that established inference-time techniques--dynamic in-context learning and self-consistency cascades--can be leveraged to shift the cost-accuracy Pareto frontier while preserving agility. Practitioners run the teacher on a small task subset to collect demonstrations, then immediately deploy a cheaper student on the remainder. At each step, the system retrieves relevant teacher demonstrations as in-context examples. When multiple student samples agree, we proceed; when they diverge, we fall back to the teacher. This requires no prompt engineering or training. On ALFWorld, we match teacher accuracy at 2.5x lower cost (0.059 to 0.024 per episode). On AppWorld, we achieve 3.5x cost reduction while recovering 79% of teacher accuracy. Our empirical analyses provide guidance on key design choices: teacher database size, demonstration set size, retrieval strategy, and cascade thresholds. These analyses highlight inference-time levers for navigating cost-performance tradeoffs without sacrificing human development speed.