Back to list
arxiv_cs_ai 2026年2月10日

Cofine: 安定テスト時コンピューティングにおける信頼性に基づく自精査法

CoRefine: Confidence-Guided Self-Refinement for Adaptive Test-Time Compute

Translated: 2026/3/7 11:20:02
confidence-guidedtest-time-computationlightweight-controllerserial-parallel-refinement

Japanese Translation

大型言語モデル (LLMs) の多くは、 parallel decoding(たとえば、512サンプル)を利用して推理の精度を高めることで、テスト時での縮小力を多く利用しています。しかしこれには大きなコンピューティングが伴います.私たちのグループは CoRefine という自信に基づく自精査法を導入しました。 この方法は、フルトレースの信頼性を使って停止、リエスミング、または別のアプローチを試すという行動を選択する lightweight の211kパラメータの Conv1D コントローラータ上に存在します。上のコントローラートは LLMS 開栓状態でその部分でのコンピューティング量を使用することで、問題に対する平均 2.7 精査ステップ数で競争的な精度を達成できます。 多岐の理屈検証のバッジと 3つのオープンソースモデルに対しては、 信頼性に関する確率が止まることを保有していれば、92.6パーセントの正確さを達成しており、その信頼動態の信頼性が正しさを信号化するためにはトレーリングチェックが必要でないという指摘です。 グループはこれにより、複雑なsequential-parallel バリアン CoRefine-Tree と統合することで適応的に探査と絵図をバランスさせる技術を開発しました。 信頼性をコントロール信号として扱い、正確さの担保は必要ないという論理であるため、CoRefine を可動化した合理的な推理と不完全な検証器を持つ設置状況向けにマクロジェネラティヴで最適化された設定のアグネスタンド(個別に存在性を確認する)に用いることができます。

Original Content

arXiv:2602.08948v1 Announce Type: new Abstract: Large Language Models (LLMs) often rely on test-time scaling via parallel decoding (for example, 512 samples) to boost reasoning accuracy, but this incurs substantial compute. We introduce CoRefine, a confidence-guided self-refinement method that achieves competitive accuracy using a fraction of the tokens via a lightweight 211k-parameter Conv1D controller atop a frozen LLM. The controller consumes full-trace confidence to decide whether to halt, re-examine, or try a different approach, enabling targeted self-correction with an average of 2.7 refinement steps per problem and roughly 190-fold token reduction relative to 512-sample baselines. Across diverse reasoning benchmarks and three open-source models, the controller achieves 92.6 percent precision when it confidently halts, indicating that confidence dynamics reliably signal correctness without ground-truth verification. We extend this to CoRefine-Tree, a hybrid sequential-parallel variant that adaptively balances exploration and exploitation, with easy serving integration and verifier compatibility. By treating confidence as a control signal rather than a correctness guarantee, CoRefine provides a modular primitive for scalable reasoning and agentic settings with imperfect verifiers.