Back to list
DASB -- 離散音声と音声認識ベンチマーク
DASB -- Discrete Audio and Speech Benchmark
Translated: 2026/4/20 11:16:58
Japanese Translation
arXiv:2406.14294v3 Announce Type: replace-cross
要約:離散音声トークンは、音声処理と言語処理の橋渡しとなり、音声を生成・理解できるマルチモーダル言語モデルを可能にするという潜在力から、最近注目を集めています。しかし、音韻内容、話者同一性、傍言語的提示などの重要な情報の保全は大きな課題です。既存の研究における評価設定の不整合により、最適なトークナイザーと構成の特定はさらに複雑化しています。これを解決するため、私たちは、音声、一般音声、音楽の分野にわたる判別型および生成型のタスクにおける離散音声トークンのベンチマークを行う包括的なフレームワーク「Discrete Audio and Speech Benchmark (DASB)」を導入しました。当社の結果は、離散表現は連続的な表現よりも頑健性が低く、モデルアーキテクチャ、データサイズ、学習率、容量などの因子を慎重にチューニングする必要があることを示しています。語義トークンは一般的に音響トークンの性能を上回るものの、離散トークンと連続特徴との間にギャップが存在する点が指摘され、さらなる研究の必要性が浮き彫りになりました。DASB のコード、評価設定、およびリーダーボードは、https://poonehmousavi.github.io/DASB-website/ で公開されています。
Original Content
arXiv:2406.14294v3 Announce Type: replace-cross
Abstract: Discrete audio tokens have recently gained considerable attention for their potential to bridge audio and language processing, enabling multimodal language models that can both generate and understand audio. However, preserving key information such as phonetic content, speaker identity, and paralinguistic cues remains a major challenge. Identifying the optimal tokenizer and configuration is further complicated by inconsistent evaluation settings across existing studies. To address this, we introduce the Discrete Audio and Speech Benchmark (DASB), a comprehensive framework for benchmarking discrete audio tokens across speech, general audio, and music domains on a range of discriminative and generative tasks. Our results show that discrete representations are less robust than continuous ones and require careful tuning of factors such as model architecture, data size, learning rate, and capacity. Semantic tokens generally outperform acoustic tokens, but a gap remains between discrete tokens and continuous features, highlighting the need for further research. DASB codes, evaluation setup, and leaderboards are publicly available at https://poonehmousavi.github.io/DASB-website/.