質問

私のプロジェクトでは、lium_spkdiarization-4.7.jarというライブラリを使用していますが、それがどのように機能するのかわかりません。誰もがいただき得る、それを少し説明してください。

また、私はPythonで使っています。

ライブラリへのリンクは次のとおりです。 https://voiceId.googlecode.com/svn-history/r11/trunk/scripts/lium_spkdiarization-4.7.jar

事前にありがとうございました。

役に立ちましたか?

解決

私はこのツールを認識していませんでした。本当にクールに見えます。あなたは彼らのウィキをチェックしましたか?システムの仕組みについての論文がいくつかあります。 http://lium3.univ-lemans.fr /diarization/doku.php

基本的に、それらはMFCCメル周波数ケプストラム係数(標準技術)を計算する。これは基本的なステップです。一緒に動作する機能スペースを生成します。スライディングウィンドウの上のFFTを間に合うようにコンピューティングするのは似ています。最終的にクラスタリングは、ベイジアン情報基準(BIC)メソッドを使用したこれらのタイムスライス機能について実行されます。まず、時刻に基づく特徴スペースをセグメント化し、次にクラスタに分割し、各スピーカーの一貫した機能を見つけます。 HMM、ビタビ、EM、および時にはGMMを使用することもできます。

私はそれを詳細に説明するのに十分なアルゴリズムをよく知りませんが、これも役立つはずです: http://lium3.univ-lemans.fr/diarization/doku.php/overview

ライセンス: CC-BY-SA帰属
所属していません StackOverflow
scroll top