チュートリアルを依頼されたとき、私は長い間音声認識(speech recognition)を使用していなかったことを認めなければなりません。前回音声認識(speech recognition)を試したのは、Windows98も新しかった頃のDragonDictateでした。(Dragon Dictate)非常に昔のコンピューター時代!
音声認識がどのように改善されたかに非常に興味があったので、このテーマに取り組むことができてうれしかったです。そして、男の子、それは改善されました!このような基本的な組み込みアプリケーションでさえ、「箱から出してすぐに」驚くほど良い仕事をしました。この音声認識の最後の記事では、音声認識の素晴らしさを再(Speech Recognition)認識(speech recognition)しながら学んだことと、これからどこに行くのかについてお話したいと思います。
スタートレックの準備はまだできていません
私たちの多くは、スターシップエンタープライズの乗組員が(Starship Enterprise)"Computer!"と言っているのを見たと思います。すぐに答えを得る。宇宙艦隊(Starfleet)のコンピューターはまだありませんが、WindowsVistaからWindows7(Windows Vista)に至る(Windows 7)まで、私たちの話を聞いて応答し、「それは何だったのか」と答えるコンピューターがあります。("What was that?")答えと見なされます。
音声認識(Speech Recognition)を最初に使用しようとしたときに問題が発生しました。トラブルシューティングは特に簡単ではありませんでした。ヘルプファイルは必ずしも十分に役立つとは限りません。あまり手間をかけずに、MicrosoftのWebサイト(web site)やさまざまなオンラインフォーラムで答えを見つけることができました。そういうわけで、私のウェブカメラ(モニターの真上に私の目の前に座っていて、私が話している方法と直接一致している)にもアクティブなマイクがあり、混乱を助長していることを忘れていました。それを直せば、それ以降はかなりスムーズな航海でした。
さまざまなアクセント(たとえば、 BBCの英国とアメリカの田舎者(BBC British and American redneck))で話してみたところ、標準的なアメリカの発音の違いを考慮して、かなり良い認識を得ることができました。もちろん、"Friends, Romans, countrymen, lend me your ears!"ヘレン・ミレンとジェフ・フォックスワーシー(Helen Mirren and Jeff Foxworthy)の最高の印象を与えている間、私は笑いすぎて完全に正確な結果を得ることができませんでした。
言語認識
音声認識はさまざまな言語で使用でき、限られた(Speech Recognition)アメリカの(American)アクセント、スペイン語(Spanish)、ドイツ語、フランス語(German and French)で試してみるかもしれないと思いましたが、残念ながら、オペレーティングシステム(operating system)もその言語でない限り、他の言語を使用することはできません。Microsoftから別の言語パックをインストールすることで、(language pack)オペレーティングシステム(operating system)の言語を変更できますが、変更できるのは、 Windows7Ultimate(Windows 7)またはWindows7Enterpriseを(Ultimate)実行(Windows 7)している場合のみです。
音声認識(Speech Recognition)は、米国英語(US English)、英国英語(UK English)、フランス語(French)、スペイン語(Spanish)、ドイツ語(German)、日本語(Japanese)、繁体字中国語(Traditional Chinese and Simplified Chinese)、および簡体字中国語で使用でき、これらの言語のバージョンのWindows 7(すべてのバージョン)で使用できます。試せなくてごめんなさい。Windows 8で何が起こるかはわかりませんが、他の言語パックをインストールする機能は、Windows7Professional以降のWindows8に相当するものに追加するのに適している(Windows 7)と(Windows 8)思います(Professional)。
うまくいくもの
すでに述べたように、音声認識は他の(Speech Recognition)Microsoftソフトウェア(Microsoft software)で最適に機能するように設計されています。Microsoft製品を試している限り、私は非常に成功しました(ただし、予想どおり、Microsoft Office Excelの使用には制限があり複雑でした)。他のソフトウェアでは、ヒットまたはミスしました。私はGoogleChromeブラウザをかなりうまく使用でき(間違いなくInternet Explorerほどではありません)、Eudora電子メールプログラムを使用できました。これは今ではかなり古いソフトウェア(antique software)です。自分のお気に入りのソフトウェアを試して、何ができるかを確認することは価値があります。「番号を表示」コマンドは、アイテムとコマンドを選択する際に特に役立ちました。
また、認識精度が大幅に向上するのにそれほど時間はかからなかった。私はトレーニング演習を2回経験しましたが、その後、認識はほぼ100 % correctたです。私は少し速く話すことができ、ソフトウェアが追いつくために一時停止を少なくすることができました。自分の声が画面上で言葉に翻訳されるのを見るのは本当に楽しかったです。音声認識ソフトウェア(speech recognition software)に関する私の初期の経験は、これほど楽しいものではありませんでした。
うまくいかないもの
すでに述べたように、一部のソフトウェアは音声認識(Speech Recognition)と互換性がありません。AdobeReaderやAdobeAIRバージョンのTweetDeckを開くことすらできませんでした。Internet Explorerで(Internet Explorer)Googleアカウント(Google account)にサインインして、Googleドキュメント(Google Docs)を試すことができないことがわかりました。パスワードを話したり綴ったりする方法がないようです。これはセキュリティの問題(security issue)であり、他の誰かが聞く可能性のある場所でパスワードを大声で話すことができないのではないかと思いますが、それは面倒でした。
iTunesを開いて再生する曲を選択することはできましたが、実際に再生することはできませんでした。Scrivener(私の選択したワードプロセッサ)を開くことはできましたが、 「数字を表示」("Show numbers")は、使用したいものに数字をオーバーレイしませんでした。私はお気に入りのソフトウェアで実際に大規模な実験をしませんでした—それらは私が試したほんの数例です。音声認識(Speech Recognition)を使用して、使用したいプログラムをテストし、互換性があることを確認したい人にとっては価値があります。
その他のリンクとリソース
以前の記事をまだご覧になっていない場合は、こちらで見つけることができます。
- 音声認識(Speech Recognition)の操作:セットアップと構成(Setup and Configuration)
- 音声認識(Speech Recognition)の操作:コマンド、テキストのディクテーション、および(Dictating Text & Browsing)Webの閲覧(Web)
- 一般的な音声認識の問題の(Common Speech Recognition Problems)トラブルシューティング
奇妙なことに、 GoogleまたはBingの検索(Google or Bing search)からのリンクをクリックせずに、MicrosoftAnswersWeb(Microsoft Answers)サイトで(web site)音声認識(Speech Recognition)に関する情報を見つけることはほとんど不可能です。フォーラムにいくつか質問がありますが、検索ボックスに(search box)「音声認識」("Speech Recognition")を入力しても、まったく回答が得られませんでした。このリンクを使用して、Windows Webサイトから音声認識のヘルプを取得します:(Speech Recognition)音声認識の検索結果(Speech Recognition search results)。
これは、Microsoftでの(Microsoft)音声認識(speech recognition)の歴史について説明しているウィキペディア(Wikipedia article)の簡単な記事です:Windows音声認識(Windows Speech Recognition)。
これは、音声認識(Speech Recognition)とDragon Naturally Speakingの比較に関する著者の考えを示すブログエントリ(blog entry)です:DragonNaturallySpeakingとWindows7VoiceRecognition(Dragon NaturallySpeaking Versus Windows 7 Voice Recognition)の比較です。
まとめ
私は音声認識(Speech Recognition)を使って作業し、時間の経過とともに行われた改善に驚嘆することを本当に楽しんだ。特にMicrosoft製品では、日常(everyday use)のカジュアルな使用には確かに十分です。
音声認識(Speech Recognition)を使い続けますか?はい、できれば。この時点で、これ以上洗練されたものは必要ありません。それを訓練し、それを正しく使用するために自分自身を訓練するのにかかった時間の価値は十分にありました。
Speech Recognition: Afterthoughts on Its Strengths and Weaknesses
I have to admіt that I hadn't used any kind of speech recognition in a long time when I was asked to do thе tutorials. The last time I hаd tried speech recognition, it was with Dragon Dictate, which was new when Windows 98 was also new. A very long time ago in computer years!
I was happy to tackle this subject because I was very interested to see how speech recognition has improved. And boy, has it improved! Even a basic, built-in application like this did an amazingly good job "right out of the box." In this final article about Speech Recognition, I'd like to talk about what I learned while reacquainting myself with the wonders of speech recognition, and where I'll be going from here.
Not ready for Star Trek yet
I'm sure many of us watched the crew of the Starship Enterprise saying "Computer!" and getting an immediate answer. We don't have Starfleet computers yet, but beginning with Windows Vista and continuing in Windows 7, we do have computers that will listen to us and respond to what we tell them—and answer us, if "What was that?" is considered an answer.
I did have problems when I first tried to use Speech Recognition, and troubleshooting wasn't particularly straightforward. The help files are not always helpful enough. I was able to find the answers on Microsoft's web site and in an assortment of online forums without too much work. That's how I found out that I had forgotten that my webcam (sitting right in front of me on top of my monitor, and directly in line with the way I was speaking) also had an active microphone and was adding to the confusion. Once I fixed that, it was pretty smooth sailing from then on.
I even tried speaking with an assortment of different accents (BBC British and American redneck, for example) and was able to get reasonably good recognition, allowing for differences in standard American pronunciation. Of course, saying "Friends, Romans, countrymen, lend me your ears!" while doing my very best impressions of Helen Mirren and Jeff Foxworthy made me laugh too much to get entirely accurate results.
Language recognition
Speech Recognitioncan be used with different languages, and I thought I might try it out with my limited, American accented, Spanish, German and French, but unfortunately you cannot use other languages unless your operating system is also in that language. You can change your operating system's language by installing another language pack from Microsoft, but you can only do that if you're running Windows 7 Ultimate or Windows 7 Enterprise.
Speech Recognition is available for US English, UK English, French, Spanish, German, Japanese, Traditional Chinese and Simplified Chinese, and will be found in those languages' versions of Windows 7 (all versions). I was sorry not to be able to try that out. I have no idea what will happen with Windows 8, but I think the ability to install other language packs would be a good addition to the Windows 8 equivalents of Windows 7 Professional and above.
What works well
As I mentioned, Speech Recognition is designed to work best with other Microsoft software. As long as I experimented with Microsoft products I was very successful (although as one might expect, using Microsoft Office Excel was both limited and complicated). With other software it was hit or miss. I could use the Google Chrome browser fairly well (definitely not as well as Internet Explorer) and my Eudora email program, which is pretty much antique software by now. It's worth experimenting with your own favorite software to see what you can do. The "show numbers" command was especially helpful in selecting items and commands.
I also found that it didn't take very long for the accuracy of the recognition to improve markedly. I went through the training exercises twice, and after that the recognition was almost 100% correct. I was able to speak a little faster and put in fewer pauses for the software to keep up. I really enjoyed watching my voice translated into words on the screen. My early experiences with speech recognition software were nowhere near this pleasant.
What doesn't work well
As I mentioned, some software is just incompatible with Speech Recognition. I couldn't even open Adobe Reader or the Adobe AIR version of TweetDeck. I found that I could not sign into my Google account with Internet Explorer to try out Google Docs—there seemed to be no way to speak or spell my password. I suspect this is a security issue, not allowing passwords to be spoken out loud where someone else might hear, but it was annoying.
I could open iTunes and select a song to play, but could not actually get it to play. I could open Scrivener (my word processor of choice) but "Show numbers" did not overlay numbers on anything I wanted to use. I didn't do any really extensive experimentation with my favorite software—those are just a few that I tried. It would be worthwhile for anyone who wants to use Speech Recognition to test out the programs they want to use it with, to be sure it's going to be compatible.
More links and resources
If you haven't already seen the previous articles, you can find them here:
Oddly, it's almost impossible to find any information about Speech Recognition on the Microsoft Answers web site without clicking a link from a Google or Bing search. I was unable to get any answers at all by putting "Speech Recognition" into the search box, even though there are a few questions about it in the forums. Use this link to get Speech Recognition help from the Windows web site: Speech Recognition search results.
Here's a brief Wikipedia article that talks about the history of speech recognition at Microsoft: Windows Speech Recognition.
Here is a blog entry that gives the author's thoughts on comparing Speech Recognition with Dragon Naturally Speaking: Dragon NaturallySpeaking Versus Windows 7 Voice Recognition.
Wrapping it up
I really enjoyed working with Speech Recognition and marveling at the improvements that have been made over time. It would certainly be good enough for casual everyday use, especially with Microsoft products.
Will I keep using Speech Recognition? Yes, when I can. At this point I don't need anything more sophisticated. It was well worth the time it took to train it and to train myself to use it right.