reconhecimento de voz Java

https://stackoverflow.com/questions/609528

03-07-2019
|

Pergunta

Existe alguém que tem experiência com qualquer fonte aberta, ou relativamente barato API de reconhecimento de voz para java? Estou praticamente à procura de algo que vai transformar palavras faladas em texto.

A partir da página de reconhecimento de fala java no sol, parece que é algo que é bastante mortos. Meus requisitos é algo que nos menos roda em Linux.

Alguém pode recomendar alguma coisa? java pura seria um bônus, solução baseada em um linux mais poderia ser considerada. E uma vez que este é um projeto de casa ... o mais barato, melhor.

Editar

CMU Sphinx Como Amit apontou CMU Sphinx http://cmusphinx.sourceforge.net/html/cmusphinx.php Meu problema é a taxa de erro de palavra maciça. Formação parece ser um projeto tudo em si mesmo, eu estou esperando para recolher um pouco de força para experimentá-lo neste fim de semana.

IBM ViaVoice
Há anúncios de notícias flutuando para 2004 sobre Via Voz sendo feitos aberta fonte. Parece que o comunicado de imprensa era prematuro e que isso nunca aconteceu. VIA voz era href="http://www.articlearchives.com/computing/software-services-applications/440754-1.html" lançado para linux em algum ponto, mas parece que eles pararam. Tudo o que parece ser deixados no site da IBM é ViaVoice incorporado .

IBM Websphere Voz
Imagino que é por isso que ViaVoice (desktop) parece interrompido. IBM criou esta solução comercial que vai custar colocar mais do que um braço e uma perna. E apenas usá-lo vai aproveitar as que você deixou, pelo menos, depois da minha experiência com websphere e sua IDE.

Nuance
Parece que eles ainda podem criar produtos para linux. Mas eu acho que eles têm perdido e seguiu IBM no mercado de servidores. Eu não sou tão certo sobre este, o seu web-site não é tão amigável em encontrar informações úteis.

Open Mind / Free Speech
Esses caras sempre a mudar seu nome do projeto. Provavelmente alguma empresa com fome dinheiro continua ameaçando-os, mas eu não sei. O projeto parece um pouco mortos.

Eu poderia tentar treinar Esfinge neste fim de semana para ver se ele quer ser amigos. Else pior caso, eu vou estar olhando para usar solução de voz da Microsoft. Tem funcionado bem para mim no passado, mas não é uma grande solução linux. Eu provavelmente poderia usá-lo através de vinho, mas então eu vou ter dois servidores separados ... desarrumado.

Oh eo que parece um bom lugar para visitar para voz / fala SpeechTechMag . Eles têm um 'Anual de Referência', que tem uma lista de empresas que de alguma forma-se relaciona com voz / fala.

Solução

Na maior parte Java: http://cmusphinx.sourceforge.net/html/cmusphinx.php

Outras dicas

esfinge é de longe a melhor opção disponível se você estiver em um orçamento. no entanto, ele também faz um enorme diferença que os modelos que você usa, como você ajustá-los e como você sintonizar sua fonte de áudio. absolutamente tudo tem que combinar caso contrário, o trabalho apenas não. dado o problema que você descreveu id estaria disposto a apostar uma soma substancial que você tem você tem seus modelos misturados e seu microfone não está correctamente calibrado. Além disso, se você tem um sotaque que provavelmente não vai funcionar - este não é um problema com o decodificador, mas com os modelos acústicos - se ninguém com uma voz / sotaque semelhante ao seu foi incluído nos dados de treinamento você vai ter resultados pobres .

Dito isso, você já olhou para sua página modelos de código aberto?

http://www.speech.cs.cmu.edu/sphinx/ modelos /

dependendo do que você está tentando fazer você deve ser capaz de obter cerca de 90% de precisão na liberdade de expressão com os modelos 16kHz WSJ ea gigaword LM NVP. i advertem, porém, que ASR é uma grande empresa e ainda não atingiu status de mercadoria.

Você pode baixar vPass (senha voz) de http://www.basic-signalprocessing.com .

Para (vText) voz para texto, eu posso enviar o arquivo vText.jar para o seu e-mail. Pls notificar enquiry@basic-signalprocessing.com

Os componentes são projetados para Java e .Net idioma. O período de reconhecimento é de 5 segundos. VPass é bem testado vText não, ainda é novo, é por isso que ainda não embalados.

Atenciosamente, Andreas

Eu tenho olhado para a mesma coisa por alguns dias agora. Até agora eu descobri sphinx4 e FreeTTS. Ambos são implementações de Java e Esfinge parece que é atualizado com bastante frequência ao contrário FreeTTS. O único problema que estou tendo é que Esfinge está a ter problemas me entender em um ambiente de escritório, e eu preciso de uma solução para um ambiente de armazém.

O meu grupo terminou um mini programa em Java para reconhecer dígitos faladas usando Esfinge .

Licenciado em: CC-BY-SA com atribuição

Não afiliado a StackOverflow