Back to list
zenn_feed 2026年4月17日

Gemma 4の音声認識機能でリアルタイム文字起こしを試してみた

Gemma 4の音声認識機能でリアルタイム文字起こしを試してみた

Translated: 2026/4/17 6:03:35
gemma 4voice recognitionreal-time transcriptionopen-weightmultimodal llm

Japanese Translation

2026年4月、GoogleがGemma 4をApache 2.0ライセンスでリリースしました。E2B、E4B、26B-A4B(MoE)、31B(Dense)の4サイズ展開で、テキスト・画像・動画を扱えるマルチモーダルLLMです。 この中で小型モデルのE2BとE4Bには音声入力機能が搭載されています。音声対応のオープンウェイト小型モデルとしては前身のGemma 3n(2025年5月プレビュー、同年6月正式リリース)が先行していましたが、Gemma 4では音声エンコーダが改善されています。 Gemma 3n E2B Gemma 4 E2B 音声エンコーダ USM-style...

Original Content

2026年4月、GoogleがGemma 4をApache 2.0ライセンスでリリースしました。E2B、E4B、26B-A4B(MoE)、31B(Dense)の4サイズ展開で、テキスト・画像・動画を扱えるマルチモーダルLLMです。 この中で小型モデルのE2BとE4Bには音声入力機能が搭載されています。音声対応のオープンウェイト小型モデルとしては前身のGemma 3n(2025年5月プレビュー、同年6月正式リリース)が先行していましたが、Gemma 4では音声エンコーダが改善されています。 Gemma 3n E2B Gemma 4 E2B 音声エンコーダ USM-style...