임베디드 애플리케이션을위한 음성 인식 엔진

https://stackoverflow.com/questions/1862533

16-09-2019
|

문제

Windows CE 음성 활성화 응용 프로그램을 개발하기 위해 사용 가능한 음성 인식 엔진 및 SDK를 조사하려고합니다. 나는 뉘앙스를 가로 질러 달리고 있지만 다른 것은 많이 보이지 않습니다. 가능하면 .NET SDK를 선호하지만 대부분 C/C ++라고 생각합니다. 어떤 제안도 감사합니다. 감사.

해결책 5

위의 내 의견 중 하나에서 언급했듯이 Vangard Voice Systems의 음성 인식 .NET SDK를 시도하고 있습니다. 그것은 Nuance의 Vocon3200 음성 인식 엔진을 사용하여 존경 받고 초기 테스트에서 잘 작동하는 것 같습니다. 우리는 지금 저렴한 마이크를 사용하고 있으며 외부 소음에 문제가 있습니다. 다행스럽게도 노이즈 캔셀 헤드셋으로 해결되기를 바랍니다. 소프트웨어 모델은 기본적으로 기존의 비 목성 애플리케이션에 연결되어 있다는 점에서 약간 부족합니다. 이 사실로 인해 몇 가지 제한 사항이 있으며 개발자가 액세스 할 수있는 제한된 API가 있습니다. 이와 같은 것을 지나치게 단순화하려고 할 때마다 강력한 솔루션을 훨씬 더 어렵게 만듭니다. 그렇게 말하면서, 우리는 모바일 애플리케이션의 음성 활성화를 위해 .NET SDK의 요구에 맞는 경쟁 제품을 실제로 찾을 수 없었습니다. 그들은 현재 멋진 작은 틈새 시장이 새겨 져 있습니다.

나는 Nuance의 C ++ SDK (다른 회사가 .net 래퍼를 작성한)와 함께 가기를 선호했지만, Nuance 비즈니스 모델은 우리가 재판매 용 제품을 개발하고 있으며 중요한 로열티가 포함되어 있다고 가정합니다. 내부 응용 프로그램을 개발하려는 회사의 진정한 장벽.

다른 팁

뉘앙스는 기본적으로 모든 사람을 샀습니다. 그들은 연설 시장을 지배합니다. 두려워합니다 ...

이 기술을 다루는 다른 회사가 몇 개 있지만, 임베디드 시장에서 얼마나 잘하는지 모르겠습니다. 거기 있습니다 Telisma 그리고 loquendo, 영어가 아닌 존재가 강한 두 가지 모두 (그리고 그들의 영어도 나쁘지 않습니다).

그런 다음 여전히 IBM이 있습니다. 그들은 가지고 있습니다 Viavoice 내장.

업계가 기다리는 큰 것 중 하나는 Microsoft의 인수에서 나오는 것이 무엇인지 보는 것입니다. 말해 주세요, 그러나, 나는 임베디드 시장이 처리를 "클라우드"로 밀어내는 대신 멀리 떨어져있을 수 있다고 생각합니다.

IVR 응용 프로그램과 함께 일합니다. 뉘앙스 외에도 현재 Microsoft, IBM 및 Lumenvox를 평가하고 있습니다.

대부분의 휴대 전화에 포함 된 음성 인식 응용 프로그램은 "Joe"라는 문구를 주소록 항목에 할당하고 "Joe"라고 말할 때 주소록 입력을하는 전화 다이얼을 사용하는 등 이전에 음성 구멍을 일치 시키도록 설계되었습니다. 보다 강력한 음성 인식 엔진은 문구를 분해하여 자유로운 음성을 해독하려고합니다. 음소, 그런 다음 음향 저장소와 일치하여 실제로 말한 내용을 파악하려고 시도합니다. 완전히 날아간 음성 인식 엔진에는 상당한 양의 CPU 마력이 필요합니다. 모바일 장치에서 음성 인식으로 복잡한 작업을 수행하려면 처리를 위해 장치에서 서버로 데이터를 보내야 할 것입니다.

Microsoft의 Speech API를 살펴보십시오. http://msdn.microsoft.com/en-us/library/ms897381.aspx

나는 그것이 CE 장치에서 실행된다고 생각합니다.

오픈 소스 프로젝트도 있습니다 CMU 스핑크스 . 그들은 휴대용 장치를 대상으로 한 PocketSphinx라는 변형을 가지고 있습니다.

라이센스 : CC-BY-SA ~와 함께 속성

제휴하지 않습니다 StackOverflow