この広告は30日以上更新がないブログに表示されております。
新規記事の投稿を行うことで、非表示にすることが可能です。
広告
posted by fanblog
2021年04月20日
Text To Speech (TTS) を IBM Watsonで行う
概要
IBM Watson
Text To Speech(TTS)
Text To Speech とは、文字列を入力して、それを自然に聞こえるように読み上げる機能です。
身近な例で言えば、 Google翻訳 があります。
Text To Speech を試す
IBM Text to Speech Demo でデモを行うことができます。ひと月あたり1万文字まで無料で試すことができます。
※試すには IBM Cloudに登録することが必要です。
ログイン後に「管理」タブ→「アクセス」→「APIキー」でAPIキーを作成します。
APIの実行は、ターミナルからcurlで実行します。
■実行コマンド
curl -X POST -u "apikey:{API}" \
--header "Content-Type: application/json" \
--data '{"text": "テスト実行です。"}' \
--output sample.mp3 \
"{URL}/v1/synthesize?voice=ja-JP_EmiVoice"
※{API}と{URL}は各アカウントに依存する。
上記の実行コマンドが成功すると、カレントディレクトリに、sample.mp3が作成されます。
Text To Speech の出力音声
Watsonで音声を生成した結果を以下リンクにつけた。
テキストデータ:「米国訪問中の菅義偉首相は米製薬大手のファイザーに新型コロナウイルスワクチンの追加供給を要請する調整に入った。17日、ファイザー幹部と電話協議する。日本が確保するワクチン量を増やす。」
■IBM Watson Sample#1■
同じく音声ファイルを作成できるOpenJtalkでの結果も比較としてのせる。
■OpenJtalk Sample#1■
Watsonのほうが、人間らしい音声になっているように感じる。
イントネーションなどはまだ違和感を感じる箇所もあるが、無料のAPIとしては十分と感じる。