音声認識:その長所と短所に関する後付け

チュートリアルを依頼されたとき、私は長い間音声認識(speech recognition)を使用していなかったことを認めなければなりません。前回音声認識(speech recognition)を試したのは、Windows98も新しかった頃のDragonDictateでした。(Dragon Dictate)非常に昔のコンピューター時代!

音声認識がどのように改善されたかに非常に興味があったので、このテーマに取り組むことができてうれしかったです。そして、男の子、それは改善されました!このような基本的な組み込みアプリケーションでさえ、「箱から出してすぐに」驚くほど良い仕事をしました。この音声認識の最後の記事では、音声認識の素晴らしさを再(Speech Recognition)認識(speech recognition)しながら学んだことと、これからどこに行くのかについてお話したいと思います。

スタートレックの準備はまだできていません

私たちの多くは、スターシップエンタープライズの乗組員が(Starship Enterprise)"Computer!"と言っているのを見たと思います。すぐに答えを得る。宇宙艦隊(Starfleet)のコンピューターはまだありませんが、WindowsVistaからWindows7(Windows Vista)至る(Windows 7)まで、私たちの話を聞いて応答し、「それは何だったのか」と答えるコンピューターがあります。("What was that?")答えと見なされます。

音声認識

音声認識(Speech Recognition)を最初に使用しようとしたときに問題が発生しました。トラブルシューティングは特に簡単ではありませんでした。ヘルプファイルは必ずしも十分に役立つとは限りません。あまり手間をかけずに、MicrosoftWebサイト(web site)やさまざまなオンラインフォーラムで答えを見つけることができました。そういうわけで、私のウェブカメラ(モニターの真上に私の目の前に座っていて、私が話している方法と直接一致している)にもアクティブなマイクがあり、混乱を助長していることを忘れていました。それを直せば、それ以降はかなりスムーズな航海でした。

さまざまなアクセント(たとえば、 BBCの英国とアメリカの田舎者(BBC British and American redneck))で話してみたところ、標準的なアメリカの発音の違いを考慮して、かなり良い認識を得ることができました。もちろん、"Friends, Romans, countrymen, lend me your ears!"ヘレン・ミレンとジェフ・フォックスワーシー(Helen Mirren and Jeff Foxworthy)の最高の印象を与えている間、私は笑いすぎて完全に正確な結果を得ることができませんでした。

言語認識

音声認識はさまざまな言語で使用でき、限られた(Speech Recognition)アメリカの(American)アクセント、スペイン語(Spanish)ドイツ語、フランス語(German and French)で試してみるかもしれないと思いましたが、残念ながら、オペレーティングシステム(operating system)もその言語でない限り、他の言語を使用することはできません。Microsoftから別の言語パックをインストールすることで、(language pack)オペレーティングシステム(operating system)の言語を変更できますが、変更できるのは、 Windows7Ultimate(Windows 7)またはWindows7Enterpriseを(Ultimate)実行(Windows 7)している場合のみです。

音声認識

音声認識(Speech Recognition)は、米国英語(US English)英国英語(UK English)フランス語(French)スペイン語(Spanish)ドイツ語(German)日本語(Japanese)繁体字中国語(Traditional Chinese and Simplified Chinese)、および簡体字中国語で使用でき、これらの言語のバージョンのWindows 7(すべてのバージョン)で使用できます。試せなくてごめんなさい。Windows 8で何が起こるかはわかりませんが、他の言語パックをインストールする機能は、Windows7Professional以降のWindows8に相当するものに追加するのに適している(Windows 7)(Windows 8)思います(Professional)

うまくいくもの

すでに述べたように、音声認識は他の(Speech Recognition)Microsoftソフトウェア(Microsoft software)で最適に機能するように設計されています。Microsoft製品を試している限り、私は非常に成功しました(ただし、予想どおり、Microsoft Office Excelの使用には制限があり複雑でした)。他のソフトウェアでは、ヒットまたはミスしました。私はGoogleChromeブラウザをかなりうまく使用でき(間違いなくInternet Explorerほどではありません)、Eudora電子メールプログラムを使用できました。これは今ではかなり古いソフトウェア(antique software)です。自分のお気に入りのソフトウェアを試して、何ができるかを確認することは価値があります。「番号を表示」コマンドは、アイテムとコマンドを選択する際に特に役立ちました。

また、認識精度が大幅に向上するのにそれほど時間はかからなかった。私はトレーニング演習を2回経験しましたが、その後、認識はほぼ100 % correctたです。私は少し速く話すことができ、ソフトウェアが追いつくために一時停止を少なくすることができました。自分の声が画面上で言葉に翻訳されるのを見るのは本当に楽しかったです。音声認識ソフトウェア(speech recognition software)に関する私の初期の経験は、これほど楽しいものではありませんでした。

音声認識

うまくいかないもの

すでに述べたように、一部のソフトウェアは音声認識(Speech Recognition)と互換性がありません。AdobeReaderAdobeAIRバージョンのTweetDeckを開くことすらできませんでした。Internet Explorerで(Internet Explorer)Googleアカウント(Google account)にサインインして、Googleドキュメント(Google Docs)を試すことができないことがわかりました。パスワードを話したり綴ったりする方法がないようです。これはセキュリティの問題(security issue)であり、他の誰かが聞く可能性のある場所でパスワードを大声で話すことができないのではないかと思いますが、それは面倒でした。

iTunesを開いて再生する曲を選択することはできましたが、実際に再生することはできませんでした。Scrivener(私の選択したワードプロセッサ)を開くことはできましたが、 「数字を表示」("Show numbers")は、使用したいものに数字をオーバーレイしませんでした。私はお気に入りのソフトウェアで実際に大規模な実験をしませんでした—それらは私が試したほんの数例です。音声認識(Speech Recognition)を使用して、使用したいプログラムをテストし、互換性があることを確認したい人にとっては価値があります。

その他のリンクとリソース

以前の記事をまだご覧になっていない場合は、こちらで見つけることができます。

  • 音声認識(Speech Recognition)の操作:セットアップと構成(Setup and Configuration)
  • 音声認識(Speech Recognition)の操作:コマンド、テキストのディクテーション、および(Dictating Text & Browsing)Webの閲覧(Web)
  • 一般的な音声認識の問題の(Common Speech Recognition Problems)トラブルシューティング

奇妙なことに、 GoogleまたはBingの検索(Google or Bing search)からのリンクをクリックせずに、MicrosoftAnswersWeb(Microsoft Answers)サイトで(web site)音声認識(Speech Recognition)に関する情報を見つけることはほとんど不可能です。フォーラムにいくつか質問がありますが、検索ボックスに(search box)「音声認識」("Speech Recognition")を入力しても、まったく回答が得られませんでした。このリンクを使用して、Windows Webサイトから音声認識のヘルプを取得します:(Speech Recognition)音声認識の検索結果(Speech Recognition search results)

これは、Microsoftでの(Microsoft)音声認識(speech recognition)の歴史について説明しているウィキペディア(Wikipedia article)の簡単な記事です:Windows音声認識(Windows Speech Recognition)

これは、音声認識(Speech Recognition)Dragon Naturally Speakingの比較に関する著者の考えを示すブログエントリ(blog entry)です:DragonNaturallySpeakingとWindows7VoiceRecognition(Dragon NaturallySpeaking Versus Windows 7 Voice Recognition)の比較です。

まとめ

私は音声認識(Speech Recognition)を使って作業し、時間の経過とともに行われた改善に驚嘆することを本当に楽しんだ。特にMicrosoft製品では、日常(everyday use)のカジュアルな使用には確かに十分です。

音声認識(Speech Recognition)を使い続けますか?はい、できれば。この時点で、これ以上洗練されたものは必要ありません。それを訓練し、それを正しく使用するために自分自身を訓練するのにかかった時間の価値は十分にありました。



About the author

私は 10 年以上の経験を持つソフトウェア開発者です。私は Mac プログラミングを専門としており、TextEdit、GarageBand、iMovie、Inkscape など、さまざまな Mac アプリケーション用に数千行のコードを書いてきました。また、Linux および Windows 開発の経験もあります。開発者としての私のスキルにより、macOS から Linux まで、さまざまなソフトウェア開発プラットフォーム向けの高品質で包括的なチュートリアルを作成することができます。このチュートリアルは、使用しているツールについて詳しく知りたい人にとって最適な選択肢です。



Related posts