음성 처리 설명에서 벡터 양자화

https://stackoverflow.com/questions/2271264

20-09-2019
|

문제

결정하는 데 어려움이 있습니다 이 연구 논문 정확히 표준 벡터 양자화 알고리즘을 재현하여 교육 데이터 세트에 따라 미확인 음성 입력의 언어를 결정하는 방법. 다음은 몇 가지 기본 정보입니다.

추상 정보어쿠스틱 기능을 사용하는 언어 인식 (예 : 일본어, 영어, 독일어 등)은 현재 음성 기술에 중요하지만 어려운 문제입니다. ...이 논문에 사용 된 연설 데이터베이스에는 20 개의 언어가 포함되어 있습니다. 16 개의 문장이 남성 4 명과 여성 4 명에 의해 두 번 발화되었습니다. 각 문장의 지속 시간은 약 8 초입니다. 첫 번째 알고리즘은 표준 벡터 양자화 (VQ) 기술을 기반으로합니다. 모든 언어는 자체 VQ 코드북이 특징입니다. $alt text$ .

인식 알고리즘첫 번째 알고리즘은 표준 벡터 양자화 (VQ) 기술을 기반으로합니다. 모든 언어, k, 자체 VQ 코드북이 특징입니다. $alt text$ . 인식 단계에서 입력 음성은 양자화됩니다 $alt text$ 축적 된 양자화 왜곡, D_K가 계산된다. 최소한의 왜곡으로 인식되는 언어. Calculating VQ 왜곡, 여러 LPC 스펙트럼 왜곡 측정이 적용됩니다 ...이 경우 WLR- 가중 최소 비율 - 거리 : http://tinyurl.com/yc52gcl.

표준 VQ 알고리즘 :코드북, 대체 텍스트 http://tinyurl.com/y8csx6e, 각 언어에 대해 훈련 문장을 사용하여 생성됩니다. 문장의 입력 벡터에 대한 누적 거리, $alt text$ ,, 다음과 같이 정의됩니다. 대체 텍스트 http://tinyurl.com/ybynjc2

거리 d 음향 기능에 해당하는 거리 일 수 있으며 코드북 생성에 사용되는 것과 동일해야합니다. 각 언어는 VQ 코드북이 특징입니다. $alt text$ .

내 질문은, 어떻게 정확히 어떻게해야합니까? 영어로 된 50 문장 세트가 있습니다. MATLAB에서는 특정 신호에 대해 WLR을 쉽게 계산할 수 있습니다. 그러나 영어 용 "코드북 생성"에 WLR을 사용해야하므로 코드북을 공식화하는 방법은 어떻게하나요? 또한 크기 16의 VQ 코드북 (가장 좋은 크기로 밝혀진)을 주어진 입력 신호와 비교하는 방법에 대해 궁금합니다. 누군가 나를 위해이 논문을 증류 할 수 있다면, 나는 그것을 크게 고맙게 생각합니다.

감사!

해결책

두 번째 질문 (코드북을 주어진 신호와 비교) 더 쉽습니다. 각 코드북 항목 v_k_j마다 입력 신호로 거리 d를 계산해야합니다. 거리가 가장 작은 'J'는 가장 적합한 코드 북 항목에 응답합니다. 거리 기능으로 WLR을 사용할 수 있습니다

건축 코드북 (Trainig)은 조금 더 복잡합니다. 문장을 lenght n (16)으로 벡터로 나눈 다음 일부 클러스터링 알고리즘 (K- 평균)을 사용하여 이러한 벡터를 클러스터링해야합니다. 그런 다음 모든 클러스터에서 평균을 찾으십시오. 이것은 코드북 항목이 될 것입니다. 떠오르는 것은 떠오르는 것입니다.

또 다른 알고리즘 (더 나을 것입니다)을 찾을 수 있습니다. 여기. 또한 두 가지 간단한 교육 알고리즘이 설명되어 있습니다 위키 백과

라이센스 : CC-BY-SA ~와 함께 속성

제휴하지 않습니다 StackOverflow