Back to list
深学習に基づく音声補正のためのthroatおよびアコースティック音声のペア付きデータセット
Throat and acoustic paired speech dataset for deep learning-based speech enhancement
Translated: 2026/4/24 20:11:29
Japanese Translation
arXiv:2502.11478v3 発表タイプ:置き換えクロス
概要:工場、地下鉄、賑やかな道路のような高ノイズ環境において、明確な音声の捕捉は困難です。throatマイクには固有のノイズ抑制機能があるため、解決策となり得ますが、音波が皮膚および組織を通過する際に高周波情報が減衰し、語りの明瞭性が低下します。最近の深学習アプローチは、throatマイク記録の補正において有望な成果を示していますが、さらなる進展は標準的なデータセットの欠如によって制約されています。ここでは、throatおよびアコースティックマイクを使用して60名の母语韓国話者から記録されたペア付き話語を含む「throatおよびアコースティック音声(TAPS)データセット」を紹介します。さらに、2つのマイクの間における固有の信号ミスマッチに対処するための最適ラインアップアプローチを開発し、適用しました。TAPSデータセット上で3つの基盤深学習モデルを評価した結果、語音品質の改善とコンテンツの復元において、マッピングベースのアプローチが優位であることが分かりました。これらの見解は、TAPSデータセットが音声補正タスクにおける有用性を示し、throatマイクベースのアプリケーションを推進する研究における標準的なリソースとしての可能性を裏付けるものです。
Original Content
arXiv:2502.11478v3 Announce Type: replace-cross
Abstract: In high-noise environments such as factories, subways, and busy streets, capturing clear speech is challenging. Throat microphones can offer a solution because of their inherent noise-suppression capabilities; however, the passage of sound waves through skin and tissue attenuates high-frequency information, reducing speech clarity. Recent deep learning approaches have shown promise in enhancing throat microphone recordings, but further progress is constrained by the lack of a standard dataset. Here, we introduce the Throat and Acoustic Paired Speech (TAPS) dataset, a collection of paired utterances recorded from 60 native Korean speakers using throat and acoustic microphones. Furthermore, an optimal alignment approach was developed and applied to address the inherent signal mismatch between the two microphones. We tested three baseline deep learning models on the TAPS dataset and found mapping-based approaches to be superior for improving speech quality and restoring content. These findings demonstrate the TAPS dataset's utility for speech enhancement tasks and support its potential as a standard resource for advancing research in throat microphone-based applications.