Back to list
arxiv_cs_ai 2026年2月10日

MTR-DuplexBench: Full-Duplex会話言語モデルの完全評価を Towards もう一つの多回転動態を持つユーザー体験

MTR-DuplexBench: Towards a Comprehensive Evaluation of Multi-Round Conversations for Full-Duplex Speech Language Models

Translated: 2026/2/14 8:10:13

Japanese Translation

フルドッピング言語モデル(FD-SLMs)は、リアルタイムな並行的な会話を可能にし、単純な半ドッピングモデルが提供するよりダイナミックで興奮するユーザー経験を提供します。しかし、これまでの評価基準は、主には一回転だけの会話の評価に重点を置いています。それは多回転のコミュニケーションについての複雑さを無視しています。また、既存の評価基準では、通常の会話に関する特性のみを評価し解釈することが多いので、他の重要な要素が欠けています。これらのギャップを解決するために、我々はMTR-DuplexBenchを導入しました。これはFD-SLMsに対する完全な多回転評価を実現するための新しい基準です。またMTR-DuplexBenchは連続したフルドッピングの会話から離れた断片的な段階でスイッチを作成、それぞれに評価し、さらに、含みます。会話特性、ディレイの品質、指令への遵守、安全な要素など数多くの評価要素です。実験結果は、現在のFD-SLMsが複数の回転と評価要素によって相対的に一致せずとも絶対的な性能を維持していることを示しています。これが新しい基準とそのバッジを与えられたコードは今後公開されます。

Original Content

arXiv:2511.10262v2 Announce Type: replace-cross Abstract: Full-Duplex Speech Language Models (FD-SLMs) enable real-time, overlapping conversational interactions, offering a more dynamic user experience compared to traditional half-duplex models. However, existing benchmarks primarily focus on evaluating single-round interactions, neglecting the complexities of multi-round communication. Evaluating FD-SLMs in multi-round settings poses significant challenges, including blurred turn boundaries in communication and context inconsistency during model inference. Also, existing benchmarks often focus solely on evaluating conversational features, neglecting other critical aspects. To address these gaps, we introduce MTR-DuplexBench, a novel benchmark designed for a comprehensive multi-round evaluation of FD-SLMs. MTR-DuplexBench not only segments continuous full-duplex dialogues into discrete turns for turn-by-turn assessment but also incorporates various evaluation aspects, including conversational features, dialogue quality, instruction following, and safety. Experimental results reveal that current FD-SLMs face difficulties in maintaining consistent performance across multiple rounds and evaluation dimensions, highlighting the necessity and effectiveness of our benchmark. The benchmark and code will be available in the future.