音声認識と音声統合を始めます

https://stackoverflow.com/questions/3881015

28-09-2019
|

質問

スピーチ認識と音声統合を始めたい音声認識に基づくプロトタイプ誰かが私にMicrosoft Speech Server（SDKなど）を使用するように言った

これを持っているとき、どのようにアプリケーションをプログラミングし、どのプログラミング言語（開発環境？）をプログラミングしますか？

誰かがアスタリスクやsvoxで経験したことがありますか？

私はする必要があります：

音声認識音声統合

私は非常に良い音声認識である必要はありません - 最初は30〜50語で十分だと思います。私はWindowsを使用しています。

前もって感謝します

解決

Microsoft Speech Engineを使用することを選択した場合、.NETフレームワークAPIがあります。他の投稿で述べたように、2つの名前空間（デスクトップの使用のためのSystem.speechと、サーバーの使用のためのSpeech）があります。任意の.NET言語でプログラムでき、Visual Studioを使用できます。

数年前に公開された非常に良い記事があります http://msdn.microsoft.com/en-us/magazine/cc163663.aspx. 。これはおそらく私がこれまでに見つけた最高の紹介記事です。ただし、winfx APIのプレリリースバージョンとSystem.speechクラスは、Vistaがリリースされたときに変更されました。この記事のサンプルは、これらの壊れたAPIの変更のためにコンパイルされません。これを説明する更新や正誤表は見つかりませんでした。メソッド名「AppendResultKeyValue」についてインターネットを検索すると、次のようないくつかのフォーラムの投稿があります http://www.ms-news.net/f3012/system-sepeech-braking-changes-3025734.html 人々がこの同じ問題に遭遇しました。

それはまだ良い入門記事であり、読む価値があります。少しハッキングを使用すると、サンプルアプリを動作させることができます。

他のヒント

計算言語学を勉強したとき、選択したツールはプラット, 、恐ろしく混乱したプロトタイピングツールで、音声関連のことは何でもできます。

外部APIはないと思いますが、その内部スクリプト言語は初歩的なアプリケーションに十分であり、多くの組み込み機能があります。理論とアルゴリズムの「始める」については、それほど悪くはありません。

ライセンス： CC-BY-SA と帰属

所属していません StackOverflow