傀儡師の館.Python

Ruby

(0)

甘い物

Profile

kugutsushi

フォローする

Free Space

設定されていません。

< 新しい記事

新着記事一覧(全1863件)

過去の記事 >

2008.12.28

大量の文書を読んでいると、だんだん目が疲れてくる。音声合成を使って、寝っ転がりながら聞きたいときがある。やっぱり、音声合成のソフトが欲しくなった。以前ピグマリオン・コンプレックス簡単に使える音声合成プログラムとか、書いたときにあれこれためしてみたが、改めて試してみた。

フリーの音声合成ソフト Galatea Project は無償で使えるのはよいけど、うーん、やっぱり聞いて疲れる。

少々、お金払ってもいいやと、比較的安く入手できるものを探す。

Skyfish の JukeBox が、実用的に比較的使えそうな感じ。サンプルあり。個人向け製品の音声エンジンは富士通製（FineSpeech）だけど、デモを聞く限り、法人向け製品の日立KEシステムズの方がいい。

とりあえず、体験版をダウンロードして使ってみたが、なんとか使えそう。個人向けでも 18,900円 (法人向けのは 200,000円～)。ちょっと高いかなぁ。PDF ファイルとかも、そのまま食わせることができて便利。対応ファイルフォーマット一覧

ちなみに青空文庫のテキストを読み上げさせようとするとき、ルビが邪魔になるのでルビなしテキストの作り方みたいなことをする必要がある。ルビつきの字を読みのみに変換するプログラムみたいのもある。もっと読ませる範囲が広がると、あれこれ処理を入れてやらないといけない。いろいろな形式のファイルから直接読めても、ゴミの文字が多いと聞いていて疲れるから、事前の処理が必要になる。となると、対応フォーマットの多さはあまりメリットでないとかいうことになるかもしれないが。そういう意味で、フィルタが欲しいところだな。ユーザ辞書程度じゃ、不足。

もっと安いのはないかということで、あらためて、Windows だと無償で使える AquesTalk を使ってみるかな。でも、読みを渡してやらないといけないので、茶筅や MeCab あたりで解析させて読みを取り出さないと。とはいえ、IPA DIC を使った解析結果を見てみると、読みがちゃんと付かないことが多くて、 UniDic を使えばいいかなと思っているうちに面倒になって諦めてしまっていた。

と思っていたら、ドキュメントトーカが AquesTalk を日本語合成エンジンとして使っていて無償で使えるのね ( ダウンロード (DTALKERPV2115.EXE: 9.39MB) )。 AquesTalk はそれなりによい線まで行っているので、なんとか使えるか。製品版「ドキュメントトーカ日本語音声合成エンジン for Windows」は、無償版で付いている制限がはずれて、より実用的に使えるようだけど（無償版では、例えば、ときどき「ドキュメントトーカプラスフリー版で喋っております。」というメッセージが入ります。とかある）。サンプルはこんな感じ

でも、ペンタックス音声合成ソフトウェア: VoiceTextデモンストレーションと比べると、やっぱりなぁ。。。。。MISAKI の声が欲しい。このレベルのものがあるんだと分かっちゃうと、使いたくなるのが人情。Misaki の声も入っている xpNavo は、税込：￥26,040 か。

あれこれ探すうちに、電子かたりべ.com の電子かたりべプレーヤーをインストールして、高品質音声合成サービスを買えば、なんと VoiceText が使えるじゃんということに気づく。しかし、分かりにくいよなぁ、このサイト。。。。でも、Misaki の声には満足。とりあえず、一年で \3,150 をとりあえず購入した。ということで、Misaki にしゃべらせることができるようになった。現状で一番これがよい選択しかもしれない。

しゃべるんです。読み上げソフト開発と音声学習の Text To Wav も使える。

要するに、Microsoft の SAPI5 (Speech API) に対応しているソフトで VW Misaki が使えるようになるのね。自分でも何か SAPI 対応のソフトを作ればよいのだな。

PlaggerでSAPI5を使ってフィード読み上げ的なこともよいかな。 SAPI5の音声ファイルを作るWSHスクリプト、青空文庫のテキストを音声ファイルにするWSHスクリプト２が便利か。みたいのもできるようになるわけね。

JavaScript などで英語を喋らせる方法とか、 Microsoft .NET Speech - 技術リソースとか参照。

日本語の TTS がインストールされていれば、例えば、次のように sample.js とかファイルを作って、


var spkr = new ActiveXObject("SAPI.SpVoice");
spkr.Speak("今日は天気が良いですね。");
spkr.Speak("外に出て遊びましょう。");

コマンドラインから


C:\work> cscript sample.js

で、しゃべっちゃうのだな。なんか嬉しい。

Python だと pyTTS みたいのもある。 Text to Speech in Python のような使い方。でも、pyTTS はもう更新されてない。Speech API を使うだけだから特にバグもないからか不明。 Text to Speech using COM (Python) みたいに win32com から直接 speak = win32com.client.Dispatch('Sapi.SpVoice') って、単純に使うのもいいか。 A SAPI Module With Pitch and Create も参照。

NVDA日本語化のためのTTSの開発とか見たら、オープンソースのWindows用スクリーンリーダNVDAってのは、Python 使っているのだな。 NVDAJp の方々が日本語化を進めているのね。

MS SAPI を離れた世界では日本語を音素に分解してくれるPythonスクリプトとかもあるのね。でも、「平成17年10月1日に調査された日本の総人口は、127,767,994人です。」のデモ(mp3) なので、研究用としてはおもしろいだろうけど、実用ですぐに使うのには辛い。でも、Microsoft 以外のプラットフォームで使えるところはいいけど。

そういえば、 GalateaTalk は、NHK の TVML の TVML プレーヤーで使われているのね。 TV4U　日本放送協会放送技術研究所 : DigInfo (YouTube) ということか。 TV4U（TV For You）。こういうのや、こういうのみたいのもできるわけね。

視覚的には iClone や CrazyTalk の方がインパクトあるなぁ。

そのうち試してみるかな、とか書いているときは、そのまま放置モードになることが多いのだけど。

話が逸れてしまったが、ペンタックス音声合成ソフトウェア: VoiceText は、とってもよい。実用で使ってみようという気になる。ただ、微妙に間をとって欲しいところで、間を取ってくれたりとかまではしてくれないときがあるから（変につながってしまうときがある）、癖をつかんで事前処理を入れた方が聞きやすくなりそう。あとは、やっぱり、ちゃんと読めないものは辞書を作るとか、書き換えをするとかも必要かな。とりあえず、たくさん使って癖をつかむか。