문제

저는 이제 Java Text to Speech (TTS) 프레임 워크를 찾고 있습니다. 내 조사 중에 나는 몇 개의 JSAPI1.0- (부분적으로)-compatible frameworks에 나열되어 있음을 발견했습니다. JSAPI 구현 페이지, JSAPI 사양을 따르지 않는 것처럼 보이는 Java TTS 프레임 워크뿐만 아니라 (메리, 말하라). 또한 현재 JSAPI에 대한 참조 구현이 존재하지 않는다고 언급했습니다.

내가 Freetts에 대해 한 간단한 테스트 (JSAPI Ims Page에 나열된 첫 번째 테스트)는 간단하고 명백한 단어 (예 : ABC, Blackboard)를 읽는 것과는 거리가 멀다는 것을 보여줍니다. 다른 테스트가 현재 진행 중입니다.

그리고 여기에 질문이 있습니다 (실제로 6).

  1. Java 기반 TTS 프레임 워크 중 어느 것을 사용 했습니까?
  2. 당신의 의견으로는 어떤 것이 가장 큰 워드베이스를 읽을 수 있습니까?
  3. 그들의 음성 품질은 어떻습니까?
  4. 그들의 성능은 어떻습니까?
  5. 장면에 Java 바인딩이있는 비 자바 프레임 워크는 무엇입니까?
  6. 그들 중 어느 것을 추천 하시겠습니까?

귀하의 의견과 제안에 미리 감사드립니다.

도움이 되었습니까?

해결책

나는 실제로 꽤 행운을 빕니다 프리츠

다른 팁

Google Translate에는 비밀 TTS API가 있습니다.https://translate.google.com/translate_tts?ie=utf-8&tl=en&q=hello%20world

나는 전에 Mary를 사용했고 목소리의 질에 깊은 인상을 받았습니다. 불행히도, 나는 다른 것을 사용하지 않았습니다.

실제로 큰 선택은 없습니다.

  • 축제, 가장 오래된. C ++로 작성되었지만 Java에 바인딩이 있습니다.
  • Google Translate에서 사용하는 Espeak, 빠르고 간단한
  • mbrola

순수한 자바 :

  • 코드가 축제에서 포팅 된 Freetts는 개방적이며 개발이 중단되었습니다.
  • Marytts- 더 강력하고 생산이 준비된 것 같습니다.

또한 다음과 같은 다른 독점 프로그램이 있습니다.

  • 아카펠라
  • 뉘앙스 보컬 라이저

소프트웨어가 Windows 만 있으면 Microsoft Speech API를 사용할 수 있습니다.

나는 사용했다 AT & T Natural Voices JSAPI 및 MS SAPI 후크를 제공합니다. 우수한 품질의 목소리, 훌륭한 "일반적인"음성 사전, 발음에 대한 많은 제어 및 여러 언어를 제공합니다. 조금 비싸지 만 잘 작동합니다.

모바일 센서 애플리케이션의 드라이버에 중요한 센서 원격 측정을 읽는 데 사용했습니다. 우리는 음성 품질에 대한 불만이 없었습니다. 그것은 과학적 용어의 경우 약 75%의 상자 외 정확도를 가졌으며 정상적인 대화에서 훨씬 더 높았습니다 (90%+). 마크 업을 사용하여 최대 약 99+% 정확도를 얻었습니다 (대부분의 오류는 비정상적인 음소 조합으로 과학적 용어에있었습니다).

프로세서에서는 약간 어려웠습니다 (우리는 Pentium-III 등가 기계에서 실행 중이며 50% -75% 피크 CPU를 밀고있었습니다). 이것은 Java 인터페이스와 함께 기본 연설 엔진 (Windows, Linux 및 Mac Compatible)을 사용합니다.

다양한 목소리와 언어가 있습니다 ...

나는 프리츠를 사용했지만 McBookPro에서 mbrola 목소리를 실행하는 데 큰 문제가있었습니다. 나는 mbrola 목소리가 창에서 (고통스럽게) 실행되도록했다. 나는 Freetts에 다른 음성 패키지를로드하는 운이 없었습니다. 그 외에는 CloudGarden에서도 약간의 성공을 거두었지만 Windows Afaik에서만 실행됩니다. 이러한 유형의 작업이 특히 어려워서 음성 엔진으로 다른 사람들의 성공/실패를 듣고 싶습니다. 나는 또한 Sphinx4와 약간의 연설을하고 있습니다. 어제 밤에 JVXML (SPHINX4를 기반으로 한 것으로 보임)을 내려 놓았지만 이상한 이유로 실행할 수 없었습니다.

나는 마리아에게 기여했다. 나는 그것이 잠재력이 있다고 생각합니다 누구 나보다 똑똑한 hmm 음성을 핵심에서 분리했습니다 (그 목소리는 큰 데이터 세트가 필요하지 않으며 사운드가 필요하지 않습니다). 또한 이벤트 시스템을 작성하여 Freetts에 이벤트를 보낼 때 이벤트를 보내려고 노력하고 있습니다. 나는 성공을 거두었지만 지금은 리눅스에서 깨졌습니다. (아마도 타이머 버그 때문에).

모두에게 감사드립니다. 트릭은 프리츠 소스에 있습니다. 간단히 : 실행중인 경우 java -jar freetts.jar some-more-args-here, 그것은 bin/server.jar 및 bin/client.jar의 방식으로 실행될 때보 다 더 적은 단어를 철자합니다.

나는 편안한 것을 발견했다 결혼 이해할 수있는 다중 언어와 명확한 목소리가 있습니다.

t 연설을 텍스트로 변환하면 더 나은 광학은 Sphinx4-5 프리 알파. 조정 가능, 유연성 및 수정 가능한 인식 자 및 그레이머가 있기 때문에 엄지 손가락 하나를 제공합니다.

라이센스 : CC-BY-SA ~와 함께 속성
제휴하지 않습니다 StackOverflow
scroll top