문제

나는 정말에 관심이 speech-to-text 알고리즘,그러나 나는 확실하지 않다는 공부를 시작하기 위해 그들에.무리의 주위를 검색도 , 지만,그것은 1996 년부터 및 저는 있는 것이 향상됩니다.

지 않은 사람은 어떤 경험이 이런 종류의 물건에 대한 권장 사항을 읽고/소스 코드를 검토?또는 그냥 일반적인 조언에 나가 무엇을 배우려고 노력하는 경우에 대해를 얻고 싶으로 세계의 쓰는 음성 인식 프로그램(때로는 그것의 하드를 알고 무엇을 검색하지 않는 경우가 많은 지식에 대한 도메인).

편집:나는 뭔가를 크로스-플랫폼,그러나 순간에 나는 타겟팅 linux.

Edit2:감사 csmba 에 대해서 잘 생각 응답.이 시점에서,내에 주로 관심이 있는 응용 프로그램을 만들 수 있도록 자동화,또는 다른 명령을 실행을 통해 음성입니다.그래서,제한된 양의 인식할 수 있는 명령할 수 있는 중독을 함께합니다.예를 들어야하는 음악 플레이어 갔고 같은 명령은"안녕하세요 앨범으로 모든 것을 Squarepusher",또는 응용 프로그램 실행을 허용하는 사용자를 생성 음성 시작하는 바로 가기를 특정 응용 프로그램.

나는 그것을 아주 거대한 문제를,그리고 그가 근무하는 수준의 지식이 필요하려면 지금 해결을 구현하는 전체 인식 엔진 기술과 관련된 이렇게 나를 매료하고,그것은 내가 일하고 싶다고 생각하고 자신을 하고 있다.모든 가능성에,일을 따기록 또는 두 가지 주제에 공부/재생""간단한 구현에서 내 무료 시간입니다.

도움이 되었습니까?

해결책

이것은 거대한 질문에 나지 않을 시작하는 방법을 알고...그래서 나는 그냥 주는 시도 당신은 오른쪽에"본 약관"이렇게 구체화할 수 있습니다 당신의 탐구:

첫째,이해하는 음성 인식을 다양하고 복잡한 주제,그리고 많은 다른 신청입니다.사람들도 이 도메인을 첫 번째는 그들의 머리(일반적으로는 될 컴퓨터에 무슨 이해 당신 말처럼 IVR 시스템).그래서 먼저 할 수 있습 distinguise 개념으로 기본 카테고리:

인간-컴퓨터: 응용 프로그램을 다루는 것이 이해 인간 말은,하지만 인간이 알고 있는 그가 말하는 기계와 문법 은 매우 제한되어 있습니다.예

  • 컴퓨터 자동화
  • Specialized:조종사는 일부를 자동화 컨트롤 예를 들어(소음 큰 문제)
  • IVR(상호 작용하는 음성 자동 응답)시스템 구글과 같-411 또는 전화할 때에는 은행은 그리고 컴퓨터에서 다른 측면"라고 말하는'서비스'을 얻을 고객 서비스"

(자연 speech):이것은 더 크고,더 복잡한 문제입니다.여기서 우리는 또한 그것으로 다른 applciations:

  • 콜 센터:사이의 대화 에이전트로 고객,전화 품질,압축
  • 정보:라디오/휴대폰/라이브 사이의 대화를 2 개 이상의 개인

이제,언어를 텍스트가 무엇을 해야할 말합니다.당신이 걱정하는 것은 이 문제입니다.다른 기술을 사용되는 다른 문제를 해결하기 위해.개요를 참조하십시오 의 그들 중 일부입니다.요약하면,다른 방법 음성 녹음,LVCSR 와 직접 기반으로합니다.

또한,당신은 당신에 관심이 있는 박사 학위 뒤에술입니까?당신은 필요한 석사과 동등을 포함하는 신호 처리 아마 박사 학위를 수 있다.는 경우,당신은 당신을 위해 일을 개발하는 회사는 실제 음성 엔진.회사는 다음과 같 뉘앙스와 IBM 은 큰 사람이지만,또한 십자와 다른 신생 존재한다.

다른 한편으로는 경우에,당신이 원하는 것을 하나의 구현하는 응용 프로그램,당신은 당신이 작동되지 않 엔진,그러나 구축에 노력 응용 프로그램을 사용하는 엔진입니다.좋은 유례가 생각하는 양식 게임 산업의:이 개발하고 있는 그래픽 엔진(처럼 울 엔진)또는 작동 중 하나에 몇 백 게임,모두를 사용하여 동일한 그래픽 엔진?

Don't get me wrong,많은 작업의 품질에서도 검색 할 수 밖에서 IBM/뉘앙스의 세계입니다.엔진은 일반적으로 매우 열기,그리고 많은 알고리즘을 조정 할 수 있는 극적으로 성능에 영향을 미칩니다.각각의 비즈니스 응용 프로그램에는 다른 제약조건 및 비용/효과 기능을 할 수 있도록,실험 몇 년 동안 건물의 더 나은 음성 인식 기반 응용 프로그램입니다.

한가지 더:일반적으로,당신은 또한 원하는 것이 좋은 통계 배경 하에서 스키시기를 원하셨습니다.

이 시점에서,내에 주로 관심이 있는 응용 프로그램을 만들 수 있도록 자동화

좋은,우리는 수렴하기...다음 당신에 전혀 관심이 없다"Speech-to-Text".는 유행어를 세계 전체 전사,장소는 필요하지 않습니다.당신이해야에 초점을 맞추고의 일부는 더 많은 사람을 기계 기술과 같은 목소리 XML 을 사용되는 것에 IVR 시스템(뉘앙스는 가장 큰 플레이어)

다른 팁

나는 확실히 좋을 따기 또는 두 개의 새로운 경우에 필.나는 어떤 분야에서,그래서 내가 만들 수 없습니다.는 경우 당신은 여전히 대학에서(또는 여전히 밀접한 관계),당신은 당신을 찾아야한 경우에는 교수들을 만들 수 있습니다.

설문조사를 연결은 아마도 훌륭한 리소스,too.나는 확신이 있었다 발전 1996 년부터이지만,기초하지 않은 근본적으로 변경되었습니다.는 경우 설문조사를 잘 쓴다 당신의 시간 가치가 그것을 읽는다.

OS X 에 대한 체크 아웃: OS X 음성 기술

Windows 를 위한 체크 아웃: 마이크로소프트 연설 API

나가 입 ViaVoice 제품.그것은 좋은 ASR(자동화된 음성 인식)엔진,그리고 좋은 텍스트-음성 엔진입니다.

웹사이트에 매우 좋지 않다,하지만 이에 대한 링크를 포함 버전 http://www-01.ibm.com/software/voice/support/

그것은 플랫폼에 독립적입니다 하지만,모든 작품을 통해 MVC 사용하는 아키텍처를 채택하 vxml 의 변형에 대한 xml 음성이 목적이다.

어떤 플랫폼을 대상으로 하는?.가 Microsoft Speech Api 하는 데 사용할 수 있는 경우입니다.

라이센스 : CC-BY-SA ~와 함께 속성
제휴하지 않습니다 StackOverflow
scroll top