Frage

Ich mag entweder sphinx4 oder das HTK Toolkit nutzen, um mir eine Spracherkennungsanwendung zu bauen, dass Ziele derjenigediejenigedasjenige Alter von Stimme zu schätzen. Ich verstehe, in einem größeren Ausmaß, die ststistical Modelle in Spracherkennung beteiligt. Ich bin an Mel Frequenz Kepstrahlkoeffizienten und Gaussian Mixture Models, weil diese beiden besser zu meinem Problem Domäne geeignet sind. Habe ich von dem Sphinx Klassifizierer abgeleiteten neuronalen Netze und Futtermittel in den Trainingsdaten aus den Vektoren benutzen? Ich bin nicht ganz sicher, wo mit Sphinx oder dem HTK-Toolkit zu starten. Ich bin neu in Sphinx und Spracherkennung und meine Anwendung ist nur ein Prototyp.

Kann jemand bitte eine Form der Führung in dieser Hinsicht bieten. Mit freundlichen Grüßen.

War es hilfreich?

Lösung

In der Regel ist der erste Platz für so etwas zu starten, ist eine vorherige verwandten Arbeiten aus der akademischen Gemeinschaft zu suchen. In Minematsu et al. 2002 , sie verwendete Gaussian Mixture Model (GMM) über mel-Frequenz Kepstrahlkoeffizienten zwischen alten und jungen Sprechern zu unterscheiden.

Vermutlich, wenn Sie Zugriff auf Daten mit alten und jungen Referenten Ausbildung, sollten Sie in der Lage sein, das gleiche zu tun. Auch wenn Sie einen anderen Klassifizierer Back-End wie neuronale Netze, um versuchen möchte, wäre es wahrscheinlich gut mit GVM zu starten, da Sie wissen, dass sie für Ihre Aufgabe arbeiten sollten, und sie werden Sie etwas mit dem, was andere Klassifizierer zu vergleichen geben Sie möchten, dass zu verwenden, um zu versuchen.

Wenn Sie tun dies nur zum Spaß oder als Forschungsprojekt, würde ich empfehlen HTK verwenden, da ich mag, wie modular ist. Wenn dies jedoch ist unten etwas Handels ist, sollten Sie wahrscheinlich mit Sphinx gehen, da sie unter einer BSD-ähnlichen Lizenz neu verteilt werden können.

Andere Tipps

Ich beschloss, nicht mit Sphinx 4, weil sein basierend auf Hidden-Markov-Modellen zu gehen, die in erster Linie für die sequentielle Analyse Auch als Spracherkennung verwendet wird und auch multimodale Eingaben an eine Schnittstelle auf der Eingangssequenz basiert. Insted Ich war mit einer Software namens Praat, seine für Sprachverarbeitung und Synthese. Es gibt auch eine „Plug-in“, wenn Sie möchten, die so genannte „Akustyk“, die verwendet wird, Vokale zu analysieren und so weiter. sein kann, wird die Richtung des Wertes für Sie, ich bin nicht sicher.

Sie können dann mathlab verwenden und die Mustererkennung Toolbox benutzen, um Ihre neuronale Netze zu implementieren, GMM, oder was auch immer nähern Sie verfolgen wollen.

Hope es war hilfreich.

Lizenziert unter: CC-BY-SA mit Zuschreibung
Nicht verbunden mit StackOverflow
scroll top