Precisa de ferramentas de conversão de texto em fala e reconhecimento de fala para Linux

https://stackoverflow.com/questions/877508

22-08-2019
|

Pergunta

Estou planejando escrever um programa para Linux que use conversão de texto em fala e reconhecimento de fala.Quais são as melhores ferramentas/bibliotecas para isso?Devo usar o Windows para poder usar ferramentas melhores?As ferramentas precisam ser facilmente chamadas a partir de um console ou programa C.

Solução

Para reconhecimento de fala existem vários Esfinges.As diferentes variantes têm diferentes prós e contras, há uma comparação aqui Comparação das versões do Esfinge.Sphinx 4 é Java, mas os outros são C, acredito.

Outras dicas

Depende um pouco de qual fala você está tentando reconhecer.

Este é um artigo de 2005 que explica algumas das dificuldades na criação de um programa de ditado: http://www.cs.cmu.edu/~archan/personal/whyNoOpenSourceDictationDraft4.html .Se você quiser isso, o Júlio mecanismo de reconhecimento de fala parece promissor, mas você precisará adicionar seus próprios modelos acústicos e de linguagem.Você pode ser capaz de usar o voxforge modelo acústico.

Se você não está tentando escrever um programa de ditado, então você terá uma tarefa muito mais fácil.Os programas de comando têm vocabulários limitados, por exemplo 'Se quiser continuar em inglês, diga "Inglês"'.

Consegui obter resultados muito bons usando pocketsphinx e gstreamer para fazer um programa que edita automaticamente a maioria das ocorrências da palavra "Twitter" Fora de Bobo podcast.Não funcionou até que usei meu próprio modelo de linguagem baseado nas transcrições do podcast;as transcrições automáticas do reconhecedor de fala são inúteis/hilárias, mas fazem um bom trabalho ao encontrar a palavra-chave.

Para reconhecimento de fala existe muito pouco para Linux.Eu só conhecia uma opção aparentemente decente, algo que a IBM lançou há alguns anos, mas depois não foi mais disponibilizado (alguém sabe se ainda é possível obter esse SDK do ViaVoice de qualquer lugar?).Há mais algumas informações sobre possíveis opções em Wikipédia.

Eu usei os dois Loquendo e Festival no Linux.Eu consideraria as vozes de festival que usei muito pobres, com uma síntese muito robótica.As vozes do Loquendo, por outro lado, são excelentes – de altíssima qualidade.

Para conversão de texto em voz Debian/Ubuntu, também existe o SVOX Pico:

sudo apt-get install libttspico-utils

Eu sei falar é um programa de conversão de texto em fala muito bom para Linux (pode até fazer sotaques diferentes!), mas não conheço nenhum sistema de reconhecimento de fala projetado para UNIX.

O kit de ferramentas at&t fsm também é incrível - porém, nenhum uso comercial é permitido,

http://www.research.att.com/~fsmtools/fsm/

Isso é um pouco antigo, mas vi um guia bastante abrangente sobre reconhecimento de fala no Hackaday há alguns dias:http://hackaday.com/2010/07/09/get-started-with-speech-recognition/

http://simon-listens.org/ - programa de reconhecimento de voz / voz de código aberto simon

E depois há o mbrola para conversão de texto em fala.

Você verificou a síntese de fala baseada em HMM para conversão de texto em fala.Você pode encontrar a demonstração gratuita no site http://hts.sp.nitech.ac.jp/.A instalação será um pouco tediosa.

A questão original era sobre encontrar bibliotecas adequadas, eu sei, mas no que diz respeito ao uso de reconhecimento de fala bom o suficiente para ditado real, parece não haver nada disponível para Linux (embora eu tenha certeza de que isso mudará com o tempo, suspeito que mudará demore um pouco, pois não tenho certeza se muitas pessoas estão interessadas).

No momento estou tentando promover o Dragon NaturallySpeaking como um produto suportado pela CodeWeavers...então, se você estiver interessado como usuário, ajudaria se você votasse ...

http://www.codeweavers.com/compatibility/browse/name/?app_id=8427

Licenciado em: CC-BY-SA com atribuição

Não afiliado a StackOverflow