문제

Java의 오픈 소스 또는 상대적으로 저렴한 음성 인식 API에 대한 경험이있는 사람이 있습니까? 나는 말을 텍스트로 바꿀 무언가를 찾고 있습니다.

Sun의 Java Speech 인식 페이지에서, 그것은 다소 죽은 것 같습니다. 내 요구 사항은 최소한 Linux에서 실행되는 것입니다.

누구든지 무언가를 추천 할 수 있습니까? 순수한 Java는 보너스가 될 것입니다. 그렇지 않으면 Linux 기반 솔루션을 고려할 수 있습니다. 그리고 이것은 홈 프로젝트이기 때문에 ... 더 저렴할수록 좋습니다.

  • 편집하다

CMU Sphinx는 Amit이 CMU Sphinx를 지적했습니다 http://cmusphinx.sourceforge.net/html/cmusphinx.php내 문제는 거대한 단어 오류율입니다. 훈련은 그 자체로 프로젝트처럼 보입니다. 저는 이번 주말에 그것을 시도 할 힘을 모으기를 바라고 있습니다.

IBM VIAVOICE
2004 년에 떠 다니는 뉴스 발표가 있습니다 목소리를 통해 오픈 소스가 만들어집니다. 뉴스 릴리스는 조기에 있었고 결코 일어나지 않은 것 같습니다. 목소리를 통해 Linux 용으로 출시되었습니다 어느 시점에서는 멈춘 것 같습니다. IBM 웹 사이트에 남겨진 것 같습니다. Viavoice 내장.

IBM WebSphere 음성
이것이 Viavoice (데스크탑)가 중단 된 것처럼 보이는 이유라고 생각합니다. IBM은이 상업용 솔루션을 만들어 팔과 다리보다 더 많은 비용이 소요됩니다. 그리고 그것을 사용하는 것은 적어도 WebSphere와 그들의 IDE에 대한 나의 경험 이후에 당신이 떠난 것들이 필요합니다.

미묘한 차이
여전히 Linux 용 제품을 만들 수있는 것 같습니다. 그러나 나는 그들이 길을 잃고 IBM을 따라 서버 시장으로 갔다고 생각합니다. 나는 이것에 대해 확실하지 않습니다. 그들의 웹 사이트는 유용한 정보를 찾는 데 친절하지 않습니다.

열린 마음 / 자유 연설
이 사람들은 계속해서 프로젝트 이름을 변경합니다. 아마도 돈을 굶주린 회사가 계속 위협하고 있지만 나는 모른다. 프로젝트는 약간 죽었습니다.

이번 주말 Sphinx를 훈련하여 친구가되고 싶은지 확인할 수 있습니다. 그렇지 않으면 더 나쁜 경우에는 Microsoft의 음성 솔루션을 사용해 보겠습니다. 그것은 과거에 나에게 잘 작동했지만 훌륭한 Linux 솔루션은 아닙니다. 나는 아마도 와인을 통해 그것을 사용할 수 있었지만, 두 개의 개별 서버가 있습니다 ... 지저분한.

오 그리고 목소리/연설을 위해 방문하기에 좋은 곳인 것 SpeechTechMag. 그들은 어떻게 든 음성/연설과 관련된 회사 목록을 가지고있는 'anual reference'를 가지고 있습니다.

도움이 되었습니까?

다른 팁

스핑크스는 예산에 있다면 최상의 옵션입니다. 그러나 그것은 또한 a 거대한 차이 당신이 사용하는 모델, 조정 방법 그리고 오디오 소스를 조정하는 방법. 절대적으로 모든 것이 일치해야합니다. 그렇지 않으면 작동하지 않습니다. 당신이 설명한 문제를 감안할 때, 당신은 당신의 모델을 혼합하고 마이크가 올바르게 보정되지 않은 상당한 합을 기꺼이 베팅 할 것입니다. 또한 악센트가 있다면 아마도 작동하지 않을 것입니다. 이것은 디코더에 문제가되지 않고 음향 모델과 관련하여 문제가되지 않습니다. .

즉, 오픈 소스 모델 페이지를 보셨습니까?

http://www.speech.cs.cmu.edu/sphinx/models/

당신이하려는 일에 따라 16kHz WSJ 모델과 Gigaword LMS NVP를 사용하여 자유 언론에서 약 90% 정확도를 얻을 수 있어야합니다. 그러나 ASR은 대규모 사업이며 아직 상품 상태에 도달하지 못했다고 경고합니다.

VPass (음성 비밀번호)를 다운로드 할 수 있습니다 http://www.basic-signalprocessing.com.

(vtext) 음성으로 텍스트로 vtext.jar 파일을 이메일로 보낼 수 있습니다. pls는 enquiry@basic-signalprocessing.com을 알립니다

구성 요소는 Java 및 .NET Language 용으로 설계되었습니다. 인식 기간은 5 초입니다. VPASS는 잘 테스트 된 VTEXT가 아직 새롭지 않기 때문에 아직 포장되지 않은 이유입니다.

안부, 안드레아스

나는 지금 며칠 동안 같은 것을 찾고 있었다. 지금까지 나는 sphinx4와 freetts를 발견했습니다. 둘 다 Java 구현이며 Sphinx는 Freetts와 다소 자주 업데이트되는 것처럼 보입니다. 내가 가진 유일한 문제는 스핑크스가 사무실 환경에서 나를 이해하는 데 문제가 있다는 것입니다. 창고 환경을위한 솔루션이 필요하다는 것입니다.

우리 그룹은 Java에서 미니 프로그램을 마쳤으며 스핑크스.

라이센스 : CC-BY-SA ~와 함께 속성
제휴하지 않습니다 StackOverflow
scroll top