Java:Text to Speechエンジンの概要[終了]
-
02-07-2019 - |
質問
現在、Java Text to Speech(TTS)フレームワークを探しています。調査中に、 JSAPI実装ページ、およびJSAPI仕様に従っていないように見えるJava TTSフレームワークのペア( Mary 、 Say-It-Now ) 。また、現在、JSAPIのリファレンス実装は存在しないことに注意しました。
FreeTTS(JSAPI implsページにリストされている最初のテスト)で行った簡単なテストは、単純で明白な単語(例:ABC、黒板)を読むには程遠いことを示しています。他のテストは現在進行中です。
そして、ここに質問があります(6、実際):
- 使用したJavaベースのTTSフレームワークはどれですか?
- あなたの意見では、どれが最大の単語ベースを読むことができますか?
- 音声品質はどうですか?
- 彼らのパフォーマンスはどうですか?
- Javaバインディングを備えた非Javaフレームワークはシーンにありますか?
- どちらをお勧めしますか?
コメントや提案をありがとうございます。
解決
他のヒント
Google翻訳には、秘密のtts APIがあります。 https://translate.google.com/translate_tts?ie=utf-8&tl= en& q = Hello%20World
私は以前にメアリーを使ったことがあり、声の質に非常に感銘を受けました。残念ながら、私は他のものを使用していません。
実際には、大きな選択肢はありません:
- フェスティバル、最も古い。 C ++で記述されていますが、Javaにバインドされています。
- eSpeak、すばやく簡単、Google翻訳で使用
- mbrola
純粋なJava:
- FreeTTS。Festivalからコードが移植され、その後オープンソース化され、開発が停止されました。
- MaryTTS-より強力で生産準備が整っているように見えます。
また、次のような独自のプログラムもあります:
- アカペラ
- Nuance Vocalizer
ソフトウェアがWindowsのみの場合、Microsoft Speech APIを使用できます。
JSAPIおよびMS SAPIフックを提供する AT& T Natural Voices を使用しました。優れた品質の音声、優れた「一般」を提供します。音声辞書、発音の多くの制御、および複数の言語。少し高価ですが、非常にうまく機能します。
モバイルセンサーアプリケーションのドライバーに重要なセンサーテレメトリーを読み取るために使用しました。音声品質について不満はありませんでした。科学用語では約75%の標準精度であり、通常の対話でははるかに高い(おそらく90%+)ものでした。マークアップを使用することで、最大約99 +%の精度が得られました(ほとんどのエラーは、通常とは異なる音素の組み合わせの科学用語に関するものでした)。
プロセッサ上では少し大変でした(Pentium-IIIと同等のマシンで実行しており、ピークCPUを50%-75%押していました)。これは、Javaインターフェースを備えたネイティブ音声エンジン(Windows、Linux、およびMac互換)を使用します。
膨大な種類の音声と言語があります...
FreeTTSを使用しましたが、MBrola音声をMy MacbookProで実行するのに大きな問題がありました。 MBrolaの音声をWindows(苦痛に)とLinuxで実行するようにしました。 FreeTTSに他の音声パッケージをロードすることはできませんでした。これは、提供された音声が恐ろしいIMOであるため残念です。それ以外では、Cloudgardenでも少し成功しましたが、Windows AFAIKでのみ動作します。この種の作業は特に難しいので、音声エンジンで他の人の成功/失敗を聞きたいと思います。また、Sphinx4を少しいじっています。昨夜、JVXML(Sphinx4に基づいているように見えます)をプルダウンしましたが、何らかの奇妙な理由で実行できませんでした。
メアリーに貢献しました。私がHMMの音声をコアから分離した誰かが賢いなら、その可能性があると感じます(これらの音声は大きなデータセットを必要とせず、大丈夫です)。私はまた、単語を言ったときにイベントを送信するためにfreettsにイベントシステムを実行しようとしています。私は成功しましたが、今はLinuxで壊れています。 (おそらくタイマーのバグが原因です)。
多くの皆さんに感謝します。トリックはFreeTTSソースにあります。簡単に説明すると、 java -jar freetts.jar some-more-args-here
として実行される場合、bin / Server.jarおよびbin / Client.jarの方法で実行される場合よりも少ない単語を綴ります。 。
MarryTTS には多言語でわかりやすい声があります。
T音声をテキストに変換するには、 sphinx4-5prealpha が最適です。 調整可能、柔軟性、および変更可能な認識機能と文法を備えているため、親指を1つ挙げます。