Java：Text to Speechエンジンの概要[終了]

https://stackoverflow.com/questions/143390

02-07-2019
|

質問

現在、Java Text to Speech（TTS）フレームワークを探しています。調査中に、 JSAPI実装ページ、およびJSAPI仕様に従っていないように見えるJava TTSフレームワークのペア（ Mary 、 Say-It-Now ）。また、現在、JSAPIのリファレンス実装は存在しないことに注意しました。

FreeTTS（JSAPI implsページにリストされている最初のテスト）で行った簡単なテストは、単純で明白な単語（例：ABC、黒板）を読むには程遠いことを示しています。他のテストは現在進行中です。

そして、ここに質問があります（6、実際）：

使用したJavaベースのTTSフレームワークはどれですか？
あなたの意見では、どれが最大の単語ベースを読むことができますか？
音声品質はどうですか？
彼らのパフォーマンスはどうですか？
Javaバインディングを備えた非Javaフレームワークはシーンにありますか？
どちらをお勧めしますか？

コメントや提案をありがとうございます。

解決

FreeTTS

で実際に運が良かった

他のヒント

Google翻訳には、秘密のtts APIがあります。 https://translate.google.com/translate_tts?ie=utf-8&tl= en＆amp; q = Hello％20World

私は以前にメアリーを使ったことがあり、声の質に非常に感銘を受けました。残念ながら、私は他のものを使用していません。

実際には、大きな選択肢はありません：

フェスティバル、最も古い。 C ++で記述されていますが、Javaにバインドされています。
eSpeak、すばやく簡単、Google翻訳で使用
mbrola

純粋なJava：

FreeTTS。Festivalからコードが移植され、その後オープンソース化され、開発が停止されました。
MaryTTS-より強力で生産準備が整っているように見えます。

また、次のような独自のプログラムもあります：

アカペラ
Nuance Vocalizer

ソフトウェアがWindowsのみの場合、Microsoft Speech APIを使用できます。

JSAPIおよびMS SAPIフックを提供する AT＆amp; T Natural Voices を使用しました。優れた品質の音声、優れた「一般」を提供します。音声辞書、発音の多くの制御、および複数の言語。少し高価ですが、非常にうまく機能します。

モバイルセンサーアプリケーションのドライバーに重要なセンサーテレメトリーを読み取るために使用しました。音声品質について不満はありませんでした。科学用語では約75％の標準精度であり、通常の対話でははるかに高い（おそらく90％+）ものでした。マークアップを使用することで、最大約99 +％の精度が得られました（ほとんどのエラーは、通常とは異なる音素の組み合わせの科学用語に関するものでした）。

プロセッサ上では少し大変でした（Pentium-IIIと同等のマシンで実行しており、ピークCPUを50％-75％押していました）。これは、Javaインターフェースを備えたネイティブ音声エンジン（Windows、Linux、およびMac互換）を使用します。

膨大な種類の音声と言語があります...

FreeTTSを使用しましたが、MBrola音声をMy MacbookProで実行するのに大きな問題がありました。 MBrolaの音声をWindows（苦痛に）とLinuxで実行するようにしました。 FreeTTSに他の音声パッケージをロードすることはできませんでした。これは、提供された音声が恐ろしいIMOであるため残念です。それ以外では、Cloudgardenでも少し成功しましたが、Windows AFAIKでのみ動作します。この種の作業は特に難しいので、音声エンジンで他の人の成功/失敗を聞きたいと思います。また、Sphinx4を少しいじっています。昨夜、JVXML（Sphinx4に基づいているように見えます）をプルダウンしましたが、何らかの奇妙な理由で実行できませんでした。

メアリーに貢献しました。私がHMMの音声をコアから分離した誰かが賢いなら、その可能性があると感じます（これらの音声は大きなデータセットを必要とせず、大丈夫です）。私はまた、単語を言ったときにイベントを送信するためにfreettsにイベントシステムを実行しようとしています。私は成功しましたが、今はLinuxで壊れています。（おそらくタイマーのバグが原因です）。

多くの皆さんに感謝します。トリックはFreeTTSソースにあります。簡単に説明すると、 java -jar freetts.jar some-more-args-here として実行される場合、bin / Server.jarおよびbin / Client.jarの方法で実行される場合よりも少ない単語を綴ります。。

MarryTTS には多言語でわかりやすい声があります。

T音声をテキストに変換するには、 sphinx4-5prealpha が最適です。調整可能、柔軟性、および変更可能な認識機能と文法を備えているため、親指を1つ挙げます。

ライセンス： CC-BY-SA と帰属

所属していません StackOverflow