Back to list
LLM デコーダーは公平に聴くことができるのか:言語モデルの事前知識が認識におけるバイアスをどう形成するかを示すベンチマーク
Do LLM Decoders Listen Fairly? Benchmarking How Language Model Priors Shape Bias in Speech Recognition
Translated: 2026/4/24 20:25:55
Japanese Translation
arXiv:2604.21276v1 Announce Type: cross
摘要:事前学習された大規模言語モデルが音声認識のタスク固有デコーダーを取り持つようになり、その文字由来の事前知識が人口統計学的グループ間で認識をより公平にし、より偏ったものにするかという重要な問題が立ち上がった。私たちは、5 つの人口統計学的軸(人種、アクセント、性別、年齢、母国語)にわたる約 43,000 個の発話を用いて、CTC への言語モデルの導入なし、エンコーダ・デコーダーへの暗黙的な言語モデル、そして明示的な事前学習されたデコーダーを持つ LLM 基づくモデルを含む 3 つのアーキテクチャ世代にわたる 9 つのモデルを評価した。評価には Common Voice 24 と Meta の Fair-Speech という制御されたプロンプトデータセットが用いられ、このデータセットは語彙の混淆を排除する。清聴音条件下で得られた 3 つの発見は既存の仮説を挑战した:LLM デコーダーは人種バイアスを増幅しない(Granite-8B は民族間の公平性が最も高く、最大/最小 WER=2.28);Whisper はインドアクセントを有する音声に対して病状的な幻覚を示し、大型モデル v3 では挿入率は非单调的に 9.62% に達する;また音響圧縮はアクセントの公平性を、LLM の規模よりもより強く予測する。次に、私たちはこれらの発見を 12 つの音響劣化条件(ノイズ、混響、サイレンスの注入、チャンクマスク)下に両データセット全体で圧試した、合計 216 回の推論実行を行った。深刻な劣化はパラドックス的に公平性のギャップを圧縮し、すべてのグループが高 WER に収束するが、サイレンスの注入は Whisper のアクセントバイアスを 4.64 倍まで増幅し、人口統計学的選択的幻覚を引き起こした。マスク条件下では、Whisper は Catastrophic repetition loops(挿入の 86%)に陥り、明示的な LLM デコーダーは挿入が 38 倍減少し、繰り返しはほぼゼロとなる。高圧縮音声エンコーディング(Q-former)は LLM デコーダーを含む場合でも繰り返し病状を再導入する。これらの結果は、音声認識の公平性と堅牢性を向上させるための主要な杠杆として、音声エンコーダーの設計ではなく LLM のスケールであるとは結論付けられる。
Original Content
arXiv:2604.21276v1 Announce Type: cross
Abstract: As pretrained large language models replace task-specific decoders in speech recognition, a critical question arises: do their text-derived priors make recognition fairer or more biased across demographic groups? We evaluate nine models spanning three architectural generations (CTC with no language model, encoder-decoder with an implicit LM, and LLM-based with an explicit pretrained decoder) on about 43,000 utterances across five demographic axes (ethnicity, accent, gender, age, first language) using Common Voice 24 and Meta's Fair-Speech, a controlled-prompt dataset that eliminates vocabulary confounds. On clean audio, three findings challenge assumptions: LLM decoders do not amplify racial bias (Granite-8B has the best ethnicity fairness, max/min WER = 2.28); Whisper exhibits pathological hallucination on Indian-accented speech with a non-monotonic insertion-rate spike to 9.62% at large-v3; and audio compression predicts accent fairness more than LLM scale. We then stress-test these findings under 12 acoustic degradation conditions (noise, reverberation, silence injection, chunk masking) across both datasets, totaling 216 inference runs. Severe degradation paradoxically compresses fairness gaps as all groups converge to high WER, but silence injection amplifies Whisper's accent bias up to 4.64x by triggering demographic-selective hallucination. Under masking, Whisper enters catastrophic repetition loops (86% of 51,797 insertions) while explicit-LLM decoders produce 38x fewer insertions with near-zero repetition; high-compression audio encoding (Q-former) reintroduces repetition pathology even in LLM decoders. These results suggest that audio encoder design, not LLM scaling, is the primary lever for equitable and robust speech recognition.