質問

現在、Java Text to Speech(TTS)フレームワークを探しています。調査中に、 JSAPI実装ページ、およびJSAPI仕様に従っていないように見えるJava TTSフレームワークのペア( Mary Say-It-Now ) 。また、現在、JSAPIのリファレンス実装は存在しないことに注意しました。

FreeTTS(JSAPI implsページにリストされている最初のテスト)で行った簡単なテストは、単純で明白な単語(例:ABC、黒板)を読むには程遠いことを示しています。他のテストは現在進行中です。

そして、ここに質問があります(6、実際):

  1. 使用したJavaベースのTTSフレームワークはどれですか?
  2. あなたの意見では、どれが最大の単語ベースを読むことができますか?
  3. 音声品質はどうですか?
  4. 彼らのパフォーマンスはどうですか?
  5. Javaバインディングを備えた非Javaフレームワークはシーンにありますか?
  6. どちらをお勧めしますか?

コメントや提案をありがとうございます。

役に立ちましたか?

解決

FreeTTS

で実際に運が良かった

他のヒント

私は以前にメアリーを使ったことがあり、声の質に非常に感銘を受けました。残念ながら、私は他のものを使用していません。

実際には、大きな選択肢はありません:

  • フェスティバル、最も古い。 C ++で記述されていますが、Javaにバインドされています。
  • eSpeak、すばやく簡単、Google翻訳で使用
  • mbrola

純粋なJava:

  • FreeTTS。Festivalからコードが移植され、その後オープンソース化され、開発が停止されました。
  • MaryTTS-より強力で生産準備が整っているように見えます。

また、次のような独自のプログラムもあります:

  • アカペラ
  • Nuance Vocalizer

ソフトウェアがWindowsのみの場合、Microsoft Speech APIを使用できます。

JSAPIおよびMS SAPIフックを提供する AT& T Natural Voices を使用しました。優れた品質の音声、優れた「一般」を提供します。音声辞書、発音の多くの制御、および複数の言語。少し高価ですが、非常にうまく機能します。

モバイルセンサーアプリケーションのドライバーに重要なセンサーテレメトリーを読み取るために使用しました。音声品質について不満はありませんでした。科学用語では約75%の標準精度であり、通常の対話でははるかに高い(おそらく90%+)ものでした。マークアップを使用することで、最大約99 +%の精度が得られました(ほとんどのエラーは、通常とは異なる音素の組み合わせの科学用語に関するものでした)。

プロセッサ上では少し大変でした(Pentium-IIIと同等のマシンで実行しており、ピークCPUを50%-75%押していました)。これは、Javaインターフェースを備えたネイティブ音声エンジン(Windows、Linux、およびMac互換)を使用します。

膨大な種類の音声と言語があります...

FreeTTSを使用しましたが、MBrola音声をMy MacbookProで実行するのに大きな問題がありました。 MBrolaの音声をWindows(苦痛に)とLinuxで実行するようにしました。 FreeTTSに他の音声パッケージをロードすることはできませんでした。これは、提供された音声が恐ろしいIMOであるため残念です。それ以外では、Cloudgardenでも少し成功しましたが、Windows AFAIKでのみ動作します。この種の作業は特に難しいので、音声エンジンで他の人の成功/失敗を聞きたいと思います。また、Sphinx4を少しいじっています。昨夜、JVXML(Sphinx4に基づいているように見えます)をプルダウンしましたが、何らかの奇妙な理由で実行できませんでした。

メアリーに貢献しました。私がHMMの音声をコアから分離した誰かが賢いなら、その可能性があると感じます(これらの音声は大きなデータセットを必要とせず、大丈夫です)。私はまた、単語を言ったときにイベントを送信するためにfreettsにイベントシステムを実行しようとしています。私は成功しましたが、今はLinuxで壊れています。 (おそらくタイマーのバグが原因です)。

多くの皆さんに感謝します。トリックはFreeTTSソースにあります。簡単に説明すると、 java -jar freetts.jar some-more-args-here として実行される場合、bin / Server.jarおよびbin / Client.jarの方法で実行される場合よりも少ない単語を綴ります。 。

MarryTTS には多言語でわかりやすい声があります。

T音声をテキストに変換するには、 sphinx4-5prealpha が最適です。 調整可能、柔軟性、および変更可能な認識機能と文法を備えているため、親指を1つ挙げます。

ライセンス: CC-BY-SA帰属
所属していません StackOverflow
scroll top