仕組みは、スピーカーで拾った音声をクラウド上にアップロードし、AIで翻訳した結果をPower Pointのスライド上に表示しているため、マイクとインターネットに接続できる環境が必須となっています。
西脇さんの行ったデモでは、かなりの精度でリアルタイム翻訳が行われていたので、TOEICの勉強をしている身としては「英語を勉強する意味なくね??」とショックを受けるほどでしたが、実際にどの程度使えるのか、その実力を検証してみました。
Microsoft Presentation Translatorとは
Microsoft プレゼンテーショントランスレータは、プレゼンテーターが話す10の言語(アラビア語、中国語 (マンダリン)、英語、フランス語、ドイツ語、イタリア語、日本語、ポルトガル語、ロシア語、スペイン)を
60以上のサポートされている言語のいずれかに翻訳し、パワーポイントのスライド上に字幕を表示することができる無料の翻訳ソフトです。
利用可能な環境
利用するために必要な環境は以下のとおり、Office 365が推奨となっていますが、Office2013が入っている私のPCでも問題なくインストールすることができました。
- システム要件
Microsoft Office:
(推奨) Microsoft Office 365
Microsoft Office 2016
Microsoft Office 2013
Microsoft Office PowerPoint 2016
Microsoft Office PowerPoint 2013
Visual Studio 2010 Tools for Office ランタイム
Visual Studio 2013 の Visual C++ 再頒布可能パッケージ
Microsoft Visual C++ 2015 再頒布可能パッケージ Update 3
.NET Framework 4.5.2 or newer
Visual Studioランタイムなどのソフトが入ってないなくても、本体のインストール時に自動的に追加されるようなのであまり気にする必要はなさそうです。
インストール方法・設定・使い方
インストール方法や簡単な使い方については、以下のMicrosoftのサイトにまとめられています。
プレゼンテーションでの Microsoft Translator の使用
ダウンロードからインストール完了まで5分くらいでした。
日本語なのもありがたいですね。
インストールが完了するとPower Pointのプレゼンテーションタプに「サブタイトルをスタートする」というボタンが表示されるとのことなので、さっそくパワポを起動してみると、「あれ?ボタンが表示されない...なぜ...」
仕方なのでちゃんとインストールされているか、アドインの設定を確認してみることに。
アドインの確認は、ファイル>オプション>アドイン>COMアドイン>設定から「Presentation Translator」にチェックが入っているか確認。問題なさそうです。
でも、アイコンが表示されない...
こんな時は再起動してみるのが手っ取り早いので、Power Pointを再起動してみると無事に「サブタイトルをスタートする」アイコンが表示されました。
検証?@ 英語音声→英語テキスト
まずは、「Microsoft Presentation Translator」が音声をどれだけ正しく認識しているか確認するため、英語で話た内容が正確にテキスト化されるか検証してみました。
今回例文として使ったのは英語学習で使用中の「公式 TOEIC Listening&Reading 問題集1」から英会話の一部をサンプルとして使用しています。
ちなみに、画像上段の白い部分がプレゼンテーションのスライドで、下段の黒い部分が「Microsoft Presentation Translator」で認識した音声のテキストです。
【しゃべった 音声】
Are you sure you’re going the right way to the conference center?
It’s taking longer than I expected.
【AIが認識したテキスト】
Are you? Sure you’re going the right way to the conference center.
It’s taking longer than I expected.
すごい!私のつたない発音でも完璧に聞き取っている!
Rの発音ができているとは思いませんが、前後の文脈からrightとして正しく認識してくれているようです。
クエスチョンマークの位置が微妙にずれてしまっていますが、西脇さん曰く、声の抑揚を認識して疑問文か判定する能力もあるそうです。おそるべしAI、おそるべし機械学習。
検証?A 日本語音声
→日本語テキスト
今度は、日本語の音声認識がどれだけの精度か検証してみます。
【しゃべった 音声】
君は本当に会議場への正しい道を進んでいると思う?
予想していたよりも時間がかかっているし、僕たちは時間どおりにそこへ着かないんじゃないかと心配だよ。
【AIが認識したテキスト】
本当に会場への正しい道を進んでいると思う。
予想してたより時間かかっているし、僕たちは時間通りにそこへ着かないんじゃないかと心配だよ。
こちらもほぼ完ぺきですね!意識的に明瞭に発音するよう注意はしたものの、かなり使えるレベルの認識率です。
ただ、英語に比べて日本語の方が疑問文の判定は難しいようで、何度やっても疑問文を肯定文として認識してしまいました。
検証?B 日本語音声→英語テキスト
いよいよ本命の日本語から英語へのリアルタイム翻訳です。これができたらほんと今までの英語学習が無駄になるなー。恐るべしAI、恐るべき深層学習。いざ勝負!
【しゃべった 音声】
君は本当に会議場への正しい道を進んでいると思う?
予想していたよりも時間がかかっているし、僕たちは時間どおりにそこへ着かないんじゃないかと心配だよ。
【AIが翻訳した英語テキスト】
I think we are on the right path to the venue.
than expected.
It's taking a day. I'm afraid we won't be there on the wrong street.
ん、なんだこれ?1文目は日本語を肯定文として認識してしまっている影響か変な翻訳になっていますね。
そして2文目もぐたぐた。「1日掛かって、間違った道につくことはないと思う」
んー、意味がぜんぜん違いますね...
もう一度チャレンジしてみましょう。
【しゃべった 音声】
君は本当に会議場への正しい道を進んでいると思う?
予想していたよりも時間がかかっているし、僕たちは時間どおりにそこへ着かないんじゃないかと心配だよ。
【AIが翻訳した英語テキスト】
I think we're on the right path to the venue.
It's taking more time than I expected, and I'm afraid we won't be there on time.
相変わらず1文目が肯定文になっているものの、2文目はかなりいい線行っています!
発音や話すスピード、環境よってかなり結果が異なるようですね。
検証結果まとめ
ディープラーニングの発展により「人工知能が人間の仕事を奪う」と騒がれていますが、今回「Microsoft Presentation Translator」を試して感じたのは、音声認識の技術は素晴らしいものの、日本語から英語の翻訳自体はまだまだだなという感じでした。
特に日本語は文法的にあいまいな部分があるので、翻訳が難しいのでしょうね。
AIが人間の能力を超えるシンギュラリティが起こるまでは、まだまだ英語の勉強を続ける必要がありそうです。
ただ、今回の検証で音声認識の性能は素晴らしのもがあるので、会議の議事録を自動で作成するツールとしてはかなり使えるんじゃないかなと感じました。
複数人で話した場合どのような結果となるか分かりませんが、別の機会に調査してみようと思います。