Back to list
意図の違いが Large Language Model の複数回の会話の中で行き詰まる原因
Intent Mismatch Causes LLMs to Get Lost in Multi-Turn Conversation
Translated: 2026/3/7 12:31:03
Japanese Translation
複数回の会話を展開する大規模言語モデル (LLM) の会話交流は、一般的なコミュニケーションの形態となっています。ユーザーは追加的な質問を使用して意図を修正することで、この傾向を作動させます。一方で最新の研究は、多段式の会話とは別に指示が完結した状況におけるモデルに対する性能低下を明らかしています。これをお定め的に「会話を失う」と呼んでいます (LiC)。これはモデルの可靠性が原因であると考えられていましたが、意図とユーザーが会話する間の組み立て不足という根深い原因を求めました。この研究では、「LiC」は模型自身の能力を失ったわけではなく、コミュニケーションに問題があることを示しています。理論的に、モデルが増設されたり訓練が改善されるだけで LiC を解決することは不可能であり、この欠陥はコンテキストの意味であるためではなく、構造の模倣不足から来ているという推測です。我々はこれに対処するため、「誘導者が助手的なアシスタント」という解釈を切り離してきた方法を使用しています。我々がこれを実現するためには、過去の対話プロファイルに基づいて使用者は明確で構造化された指示をモデルに理解できるよう説明することです。
Original Content
arXiv:2602.07338v1 Announce Type: cross
Abstract: Multi-turn conversation has emerged as a predominant interaction paradigm for Large Language Models (LLMs). Users often employ follow-up questions to refine their intent, expecting LLMs to adapt dynamically. However, recent research reveals that LLMs suffer a substantial performance drop in multi-turn settings compared to single-turn interactions with fully specified instructions, a phenomenon termed ``Lost in Conversation'' (LiC). While this prior work attributes LiC to model unreliability, we argue that the root cause lies in an intent alignment gap rather than intrinsic capability deficits. In this paper, we first demonstrate that LiC is not a failure of model capability but rather a breakdown in interaction between users and LLMs. We theoretically show that scaling model size or improving training alone cannot resolve this gap, as it arises from structural ambiguity in conversational context rather than representational limitations. To address this, we propose to decouple intent understanding from task execution through a Mediator-Assistant architecture. By utilizing an experience-driven Mediator to explicate user inputs into explicit, well-structured instructions based on historical interaction patterns, our approach effectively bridges the gap between vague user intent and model interpretation. Experimental results demonstrate that this method significantly mitigates performance degradation in multi-turn conversations across diverse LLMs.