문제

결정하는 데 어려움이 있습니다 이 연구 논문 정확히 표준 벡터 양자화 알고리즘을 재현하여 교육 데이터 세트에 따라 미확인 음성 입력의 언어를 결정하는 방법. 다음은 몇 가지 기본 정보입니다.

추상 정보어쿠스틱 기능을 사용하는 언어 인식 (예 : 일본어, 영어, 독일어 등)은 현재 음성 기술에 중요하지만 어려운 문제입니다. ...이 논문에 사용 된 연설 데이터베이스에는 20 개의 언어가 포함되어 있습니다. 16 개의 문장이 남성 4 명과 여성 4 명에 의해 두 번 발화되었습니다. 각 문장의 지속 시간은 약 8 초입니다. 첫 번째 알고리즘은 표준 벡터 양자화 (VQ) 기술을 기반으로합니다. 모든 언어는 자체 VQ 코드북이 특징입니다. alt text.

인식 알고리즘첫 번째 알고리즘은 표준 벡터 양자화 (VQ) 기술을 기반으로합니다. 모든 언어, k, 자체 VQ 코드북이 특징입니다. alt text. 인식 단계에서 입력 음성은 양자화됩니다 alt text 축적 된 양자화 왜곡, D_K가 계산된다. 최소한의 왜곡으로 인식되는 언어. Calculating VQ 왜곡, 여러 LPC 스펙트럼 왜곡 측정이 적용됩니다 ...이 경우 WLR- 가중 최소 비율 - 거리 : http://tinyurl.com/yc52gcl.

표준 VQ 알고리즘 :코드북, 대체 텍스트 http://tinyurl.com/y8csx6e, 각 언어에 대해 훈련 문장을 사용하여 생성됩니다. 문장의 입력 벡터에 대한 누적 거리, alt text,, 다음과 같이 정의됩니다. 대체 텍스트 http://tinyurl.com/ybynjc2

거리 d 음향 기능에 해당하는 거리 일 수 있으며 코드북 생성에 사용되는 것과 동일해야합니다. 각 언어는 VQ 코드북이 특징입니다. alt text.

내 질문은, 어떻게 정확히 어떻게해야합니까? 영어로 된 50 문장 세트가 있습니다. MATLAB에서는 특정 신호에 대해 WLR을 쉽게 계산할 수 있습니다. 그러나 영어 용 "코드북 생성"에 WLR을 사용해야하므로 코드북을 공식화하는 방법은 어떻게하나요? 또한 크기 16의 VQ 코드북 (가장 좋은 크기로 밝혀진)을 주어진 입력 신호와 비교하는 방법에 대해 궁금합니다. 누군가 나를 위해이 논문을 증류 할 수 있다면, 나는 그것을 크게 고맙게 생각합니다.

감사!

도움이 되었습니까?

해결책

두 번째 질문 (코드북을 주어진 신호와 비교) 더 쉽습니다. 각 코드북 항목 v_k_j마다 입력 신호로 거리 d를 계산해야합니다. 거리가 가장 작은 'J'는 가장 적합한 코드 북 항목에 응답합니다. 거리 기능으로 WLR을 사용할 수 있습니다

건축 코드북 (Trainig)은 조금 더 복잡합니다. 문장을 lenght n (16)으로 벡터로 나눈 다음 일부 클러스터링 알고리즘 (K- 평균)을 사용하여 이러한 벡터를 클러스터링해야합니다. 그런 다음 모든 클러스터에서 평균을 찾으십시오. 이것은 코드북 항목이 될 것입니다. 떠오르는 것은 떠오르는 것입니다.

또 다른 알고리즘 (더 나을 것입니다)을 찾을 수 있습니다. 여기. 또한 두 가지 간단한 교육 알고리즘이 설명되어 있습니다 위키 백과

라이센스 : CC-BY-SA ~와 함께 속성
제휴하지 않습니다 StackOverflow
scroll top