Ruby 0
全5件 (5件中 1-5件目)
1
Javaベースの音声認識エンジン「Sphinx-4 1.0」β2が公開 らしい。Sphinx-4は、カーネギー・メロン大学が米国防高等研究計画局(DARPA)の支援を受けて開発した音声認識技術プロジェクトを土台としたもの。現在、Sun、三菱電機の米国研究所Mitsubishi Electric Research Laboratories(MERL)、米HPと共同で開発が進められている。ライセンスは BSD Lincense。難しい話を抜きにすれば 音声認識のしくみ のような感じで基本的な流れは変わらないのかな。プロジェクトのホームページ Sphinx-4: A speech recognizer written entirely in the Java programming language を見てみる。完全に Java のみで書かれているようだ。ホワイトペーパーは、Sphinx-4: A Flexible Open Source Framework for Speech Recognition にある。フリーソフトでつくる音声認識システム では、この Sphinx は扱われておらず、大語彙連続音声認識エンジン Julius のみが扱われている。現状、日本語を扱うとなると、Julius だな。でも、日本語の言語モデルをちゃんと作れば Sphinx も日本語に対応させることは理屈上は可能なのだろう。でも、やっぱり Julius を先に試すかな。ちなみに Julius は C 言語で書かれている。音声認識とは関係ないのだけど、音声合成では、デモンストレーション - 感情音声合成 の「感情のこもった音声」ってのは方向としておもしろい。例えば、危ないときに冷静に「危ないです」って言われてもダメで、「危ない!」って言って欲しい。VoiceText サンプル音声 のように淡々と読み上げるところは、かなりのレベルに来たけれど、抑揚がもっとついてくると長時間聴いても疲れなくなる。抑揚をどうつけるかという基礎として、感情を反映させた音声合成にというのは方向としていいなぁと。逆に言えば、音声認識では、「止まれ!」っと慌てて大声で発声した場合に、ちゃんと認識してくれるかっていうところが、実世界に音声認識が入り込んでいくために必要になるところだろう。あるいは、「うるさい」というのを苛立ちや怒りの感情を込めると「うるせぇー」になりがちだが、そういう発声を認識できるか。ちなみmに、企業向け議事録作成支援システム 「AmiVoiceR Rewriter」 とか、NEC、新機能を追加した音声認識議事録作成支援ソフト「VoiceGraphy 1.2」を発売 とか、現状では支援程度だろうけど、【iEXPO2008 Vol.4】議事録作成を大幅短縮!音声を文字に変換する音声認識技術 を見ると役員会議、講演、記者会見などの議事録が従来の半分の作業時間で作成できるとあるので、使い方を限定すれば実用的なところに入ってきているようだな。もっとも、ここまで来ると、よほどのところでないとペイしないだろうけど、ペイするところがあればよいわけで。オモチャを含めて音声認識を使った製品はいろいろある。製品として出して収益に結びつけているところがあれば、この分野は資金が枯渇して死ぬことはないだろう。どれだけ実用的かというのは別にして。音声認識人形 おしゃべりたっくん 、チャーピーとしゃべって覚える はじめての英会話Play English2 音声認識 Plus(Windows Vista...、【音声認識エンジン搭載】スモッカのぐんぐん覚える!新・英会話文法 、声を文字化で業務スピードUP!しゃべり言葉から書き言葉まで、声の事前登録無しで高い認識率を...。音声認識を使った語学学習っていうのは、どの程度実用的に使えるのかな。今度、買って試してみるか。
2009.02.11
コメント(0)
日本の全電子式音声合成装置、第一号は、郵政省電波研究所で作られたらしい。郵政省電波研究所(現在の通信総合研究所)の音声研究グループが昭和34年から35年にかけて製作したこの装置が、電子音によって発声する日本最初の音声合成装置(ターミナルアナログシンセサイザー)とされています。たくさんの真空管やスイッチを並べた大がかりな装置です。日本最初の全電子式音声合成装置「初めて機械がしゃべった日本語」も、上記のページで聴くことができる。昭和34年から35年でも、この程度のことができていたのね。いくらかかったかは別として。歴史的な話とは話が変わって、今の話。音声入力時に通常のプラグで接続するタイプのマイクを使うとノイズが気になるので USB 接続のヘッドセットを買ってみた。けれども、以前に比べるとよくなったが、やっぱりまだノイズを拾ってしまう。Audacity である程度、ノイズを消すことはできるが、ノイズを消すと微妙に落ちてしまう音が出てくる。もっと高いのでないとダメかな。あるいは PC 自体がノイズの発生源にならないように別のものにするか。やっぱり音が絡むものに完璧を求め始めると、どんどん金食い虫になってしまう。オーディオマニアがどんどんエスカレートしていくのも分からないでもない。いったん気にしてしまったら、ノイズがどんどん気になって、さらにはもっといい音でとか、留まるところを知らない状態になってしまう。歴史的な話に戻って、音声合成といえばNEC PC-6601 を思い出した。始めた私が使った PC は NEC PC-6601 なのだ。従兄弟から使い古したものをもらった。PC-6601が歌うタイニーゼビウスPC-6601が歌うタイニーゼビウス (VOCALOID ver)PC-6601が歌うタイニーゼビウスfeat.初音ミクなんて、過去を懐かしんだりして。それにしても、頑張れ NEC だなぁ。というか、そもそも、赤字1兆9100億円 電機9社 シャープ純損1000億円 初の転落『非正規』1500人削減へ だし、トヨタでさえも、トヨタ59年ぶり純損 3月期見通し 3500億円、3回目下方修正だから、トヨタを「格下げ」…米大手2社 は仕方ないだろう。頑張れ、日本の製造業って感じか。風下の中小企業なんかもボロボロだろうし。銀行にしても、株減損処理9900億円 大手6行 4-12月期 三菱UFJは初赤字 だもんなぁ。こんなんじゃ、さらに貸し渋りは悪化するだろうし。日本の銀行なんて、結局、頭悪いから、経済が右肩上がりでないと貸し出し増やしても不良資産増やすだけだもんね。右肩下がりで借金増やすってのは、そもそも借金する側の状態が悪化しているからで、貸し倒れの恐怖よりも、米国に投資しちゃった気持ちもわからんでもない。けれども、銀行が日本はダメだって言っちゃっているんだから、日本は当面ダメ。でも、2010年の末ぐらいには明るい兆しが出てくるんじゃないかなと思う今日この頃。根拠レスだけど。希望的観測も含めて、このあたりと。とりあえず、月曜日は、円安に傾いた状態だから、輸出株が買い戻されるのが継続されるだろう。けれども寄り天になる可能性も高いのかな。証券会社の自己売買部門は売りを入れて、そのすぐ下で買い戻しを入れて売買高を増やして、ゆがみが大きくなる(その後、大きく動かすために)あれこれするんだろう。今週のどこで、ふたたび売り優位に傾くだろうが、それは為替に現れるだろう。たぶん、米国で失望売りが出るのと同時。ヨーロッパの危機再燃が先か。どっちかな。中国が盛り上がりつつあるから、もう少し持つか、どうなるか微妙だけど、これも作られた感じだし。為替は 90円にアンカリングされている状態からオーバーシュートして円安側にきたから(これ、意図的にどこかがしかけたんだろう。ロイターなんかのメディアも使って 90円のアンカリングを意識させて)、何かのタイミングで反動が来る。戻りを試す展開、業績悪を織り込み米金融安定化策に期待感=来週の東京株式市場 って、2008年10―12月期決算がヤマ場を越え、目先の悪材料は出尽くしとなった。いったんは買い戻しや決算見極めで手控えていた投資家の買いを誘いやすい。って言うけど、この記事を見ると、(準大手証券エクイティ部)、(準大手証券)とか、個別の証券会社の名前が挙がっていない記事が増えてくると危険な徴候なのね。2月8日(日)に語られた底堅いといえば… を見ても、底堅いが上がってきているから、おそらく 1週間しないうちに失望売りに変わっていくはず。これがあがると危険を示す指標になる。何にせよ、目先の悪材料が出尽くしたというのは、とてつもなくうさんくさい。なんていうのは、音声と直接には関係ない。
2009.02.08
コメント(0)
先日、音声のお勉強セット を書いたが、今回はその続編。マンガでわかる微分積分 や マンガでわかるフーリエ解析 は、それなりに分かりやすく書かれているが、理系の人であれば、微分積分などは慣れ親しんでいるからよいだろうけど、文系の人の場合、基礎訓練が不足しているから、さっと読んで、フーリエ解析が理解して使えるかといえば、それはちょっと辛い。ということで、第二弾として、基礎訓練を積むための本を購入。Excelでやさしく学ぶ微分積分、Excelでやさしく学ぶ行列・行列式、Excelで学ぶフーリエ変換 を買ってみた。ついでなので行列の本も買った。『Excel で学ぶフーリエ解析』は、「Excel で音と波形の関係を身近な事例で机上で実験できる」というコンセプトの本。Excel を使いながら、手で学んでいこうかなと。ただし、Microsoft Office は使わずに OpenOffice Calc を使ってやってみることにする。そうすれば、OpenOffice Calc に慣れ親しむことができるし、違いを確認することができるから。次の段階では、Python で SciPy を使ってということになるかな。SciPy は Python のための科学的ツールのオープンソース・ライブラリ。SciPy は配列の高速な操作のためのすべてのライブラリを含んでおり、人気の Numeric モジュールを置き換え、ひとつのパッケージとして高レベルな科学と工学のモジュールを集めたもの。SciPy は、配列オブジェクトとその他の基本的な機能を備えた NumPy を基礎にしている。SciPy は統計、最適化、積分、線形代数、フーリエ変換、信号・イメージ処理、遺伝的アルゴリズム、ODE (常微分方程式) solver、特別な関数、その他のモジュールを提供する。SciPy (Wikipedia)ということで FFT なども対応しているので、これを使うかなと。科学者に必要なPythonモジュールはなにか? で見つけた Poll: Python Modules for Scientists を見てみると、現状では 次のような状態になっている。NumPy - 196票SciPy - 189票matplotlib - 186票IPython - 151票WxPython - 89票PIL - 85票VTK - 72票PyQt - 69票Enthought Tool Suite 63票SymPy - 50票PyTables 48票PyOpenGL 43票PySQLite 30票このあたり科学技術計算や視覚化系の Python 本が日本語で書かれるとよいのだけどな。
2009.02.07
コメント(0)
フリーソフトでつくる音声認識システム が「大学情報系の学部3回生向けの教科書および専門学校での指導書として利用されることを想定しています」という本。パターン認識の基礎理論から始まって、HTK、WEKA、Palmkit、WebSurfer、Julius/Julian、Galatea などのフリーソフトを使いつつ、理論背景を学んでいくという構成。数学が苦手という場合は、フリーソフトの箇所を少しだけ拾い読みして、それらのソフトを使うとっかかりを作る程度までの流し読みが精一杯のところ。なので、まずは、マンガでわかる微分積分 や マンガでわかるフーリエ解析 を読む。ここでくじけるようだと、まず、音声認識を理解することは不可能だろう。もっとも、作れなくても使えればよいという話もあるわけで、フリーソフトでつくる音声認識システム で概略をつかんで、あとは利用方法を自分で考えて突き進んでいくという方向もあるだろう。その他、音声学とか音韻論とか必要だな。自分の声をマイクで拾ってみると、やたらとノイズを拾ってしまってダメ。できるだけノイズが入らない音を拾うとか、ノイズをきれいにフィルタリングするとか、そっち方面も全然分かってない。先は長いな。即納【税込!送料込!】国内発送 新製品MOTOPURE H12 モトローラ H12ノイズキャンセリング Bluetoothヘッドセット みたいのを使えばいいのかな。でもちょっと高い安いのだと、Logicool(ロジクール) ヘッドセット Monaural Headset [A-331]、【在庫有り】Skypeが推奨!ノイズキャンセリングマイク搭載ヘッドセットクリアチャットプレミア...、そもそも、コネクタ経由でノイズを拾っているのかな。もう少し高いのだと ノイズキャンセリングマイク採用モデルゼンハイザーコミニュケーションズ USBヘッドセット PC25USB とかあるか。こうした USB 接続のものだと雑音少なくなるかな。PC の内部ノイズを拾ってるって感じだから、USB Sound Blaster Digital Music PX [SB-DM-PXV] みたいな USBオーディオインターフェースをつないだ方がよいか。こういうのを使った方がきれいに採れるかな。Roland の 「EDIROL(エディロール)」UA-1EX[UA1EX] だと、まあちょっと本格的になるけど、そこまでするかって感じもするし、それ以上のものだともったいない。あとは Audacity とか、KillerNoize とかでソフトウェア的にノイズを消してやると。あれこれソフトウェアの話はまた使いながら書く予定。
2009.01.26
コメント(0)
このところ音声方面に興味がある。フラフラとあちこち見て回っているうちに、hirax.net::君の歌は僕の歌::(2002.09.08) を見つける。半年ほど前、TBSのテレビ番組「USO」で放映されていた「竹内まりやの歌の音程を下げると山下達郎の歌に聞こえる」という話を観た。なんでも、その話は「ネット上をにぎわしている情報」ということだったのだけれども、ワタシには全然知らない話題だった。だから、その放映されていた「音程を下げた竹内まりやの歌」を聴いて、とてもびっくりした。半年ほど前というのは、このブログが書かれたのが 2002年9月だから 2002年3月あたりの話か。WinAmp + Pacemaker でそういうことが簡単にできちゃうのね。で、早速 WinAmp とプラグインの Pacemaker をダウンロードして試してみる。Pitch を変えてやると聞き慣れた曲がまったく別人のものになる。おもしろい。使い方は Pacemakerプラグイン あたり参照。このページでは、WinampのPacemakerプラグインを使用して曲の再生速度や音程を自由に変える方法を紹介します。 というページがある。というのはさておき本題の「色っぽい声の分析」。これも同じサイトのエントリにある。hirax.net::「色っぽい声」の秘密::(2000.06.24)。おぉ、8年前のブログだ。この中で色っぽい声の分析がされている。この声 (wav) (大きい音で再生するとびっくりするので注意)を使って、音声波形を見たり、フォルマント を見たりして、まじめに?分析している。そして、何と、そもそも日本語にはこの「色っぽい声 = 魔性の声」「あァ~ン」を示すべき音がないのである。日本語にとってこの「色っぽい声= 魔性の声」は未知の音なのである。というところにたどり着く。ところが、これに英語の母音のフォルマントを重ねてみてみると、なんと、英語ではこの領域は「未体験ゾーン」ではないのである。「色っぽい声= 魔性の声」「あァ~ン」の音は発音記号で言うとVの上下がひっくり返ったやつの領域に重なってしまうのだ。英語圏の人にとってはこの「あァ~ン」は未体験の音ではないのである。とくる。日本人はどうして英語が苦手な人が多いか。その一つには、英語の発音が日本語では使っていない音を使っていることにあるのだろう。例えば「r」と「l」が苦手とかもね。とりあえず V を逆さにした発音記号で表される「あ」の音に慣れたければ、男性の場合は彼女か奥さんに色っぽい声をたくさん出してもらって聞き慣れるようにしたらよいし(そういう人がいなければ AV 見るとか)、女性の場合は色っぽい声をたくさん出せばそれだけで発声の練習になるわけだ。なんてことは信じてはいけない。ちなみに、残念ながら、記事の最後にあるKORG MS-20を使って「シンセで作るキャバクラ嬢」にもいずれ挑戦する予定である。という予定は残念ながら果たされなかったようだが。このサイトを見てみると、おもしろいエントリがたくさんある。hirax.net::みんなで一緒に「なんでやねん。」::(2000.05.06) とか、hirax.net::恐怖!「心霊」を見つけ出すソフトウェア::(2006.07.30) なんておもしろいものも作っていらっしゃる。で、まあ、音声工学系の勉強しようとしたらフーリエ解析がどうのとか、隠れマルコフモデルがどうのとか、ケプストラム分析がどうのとか、いきなりそういうもの見ていると文系人間は疲れてしまう。ということで、興味を現実と結びつけることによって保ちながらテンションを保ってみるわけであった。ちなみにケプストラム分析 っていうのは、spectrum のアナグラムからできた言葉なのね。ケフレンシ(quefrency)は、周波数(frequency)のアナグラム、窓掛け(リフタリング(liftering)は、フィルタリング(filtering)のアナグラム)らしい。
2009.01.24
コメント(0)
全5件 (5件中 1-5件目)
1