Spracherkennungs-Engines für Embedded-Anwendungen

https://stackoverflow.com/questions/1862533

16-09-2019
|

Frage

Ich versuche, für die Entwicklung einer Windows CE Stimme fähige Anwendung verfügbar Spracherkennungs-Engines und SDK zu erforschen. Ich habe über Nuance laufen, aber nicht viel von irgendetwas anderes sehen. Ich würde ein .NET SDK, wenn möglich bevorzugen, aber ich glaube, die meisten würden C / C ++ sein. Ich schätze irgendwelche Vorschläge. Vielen Dank.

Lösung 5

Wie in einem meiner Kommentare oben erwähnt, werden wir eine Spracherkennung .Net SDK von Vangard Voice Systems versuchen. Es nutzt Nuance Vocon3200 Spracherkennungs-Engine, die auch respektiert und scheint in der frühen Test gut zu funktionieren. Wir verwenden ein billiges Mikrofon jetzt und einige Probleme mit Lärm von draußen haben. Hoffentlich wird das mit Noise-Cancelling-Kopfhörer gelöst werden. Das Software-Modell ist ein wenig in fehlt, dass es im Grunde eine bestehende Nicht-Sprachanwendung hakt in. Es gibt einige Einschränkungen aufgrund dieser Tatsache, und es gibt eine begrenzte API zugänglich durch den Entwickler. Jedes Mal, wenn Sie versuchen, etwas zu vereinfachen, Sie machen das Handwerk eine leistungsfähige Lösung viel schwieriger. Mit diesem wird gesagt, könnten wir wirklich kein Konkurrenzprodukt finden, die unsere Bedürfnisse einer .NET SDK für Sprach Aktivierung von mobilen Anwendungen dienen. Sie zur Zeit eine nette kleine Nische geschaffen haben.

Ich habe es vorgezogen, mit Nuance-C zu gehen ++ SDK (für die eine andere Firma NET-Wrapper geschrieben hat), aber das Nuance-Geschäftsmodell geht davon aus wir ein Produkt für den Wiederverkauf sind die Entwicklung und hat einige erhebliche Lizenzgebühren beteiligt. Ein echtes Hindernis für ein Unternehmen, die internen Anwendungen entwickeln will.

Andere Tipps

Nuance gekauft hat im Grunde alle auf. Sie herrschen die Rede Markt, fürchte ich ...

Es gibt ein paar anderen Unternehmen, die in der Technologie beschäftigen, aber ich weiß nicht, wie gut sie in dem Embedded-Markt zu tun. Es gibt telisma und Loquendo , sowohl die starken nicht-englische Präsenzen (und ihr Englisch ist auch nicht schlecht).

Dann gibt es nach wie vor IBM. Sie haben ViaVoice Embedded .

Einer der großen Dinge, die die Industrie für wartet, um zu sehen, was Erwerb von Microsoft kommt von TellMe , aber ich denke, der Embedded-Markt sie weg von anstatt die Verarbeitung zu der „Wolke“ zu schieben, was bleiben könnten, wo TellMe für eine lange Zeit gewesen sind.

Ich arbeite mit IVR-Anwendungen; zusätzlich Nuance wir Microsoft, IBM und Lumenvox sind derzeit auswertet.

Die Spracherkennungsanwendungen auf den meisten Handys enthalten sind so konzipiert, Spracheingabe zu einem vorher gesprochenen Satz übereinstimmen, wie die Phrase „Joe“ zu einem Adressbucheintrag zuweisen und mit Ihrem Telefon, dass der Adressbucheintrag wählen, wenn Sie sagen " Joe“. Die leistungsstärkeren Spracherkennungsmaschinen versuchen, Freiform-Sprache zu entschlüsseln, indem ein Satz brechen in Phoneme und dann Abgleich mit einem akustischen Repository, um herauszufinden, um zu versuchen, was tatsächlich gesagt wurde. Eine ausgewachsene Spracherkennungs-Engine erfordert eine angemessene Menge an CPU-Leistung; etwas Komplex mit Spracherkennung auf einem mobilen Gerät zu tun, werden Sie wahrscheinlich die Daten vom Gerät an einen Server für die Verarbeitung senden müssen.

Versuchen Sie, in Microsoft Speech API suchen, http://msdn.microsoft. com / en-us / library / ms897381.aspx

Ich glaube, es läuft auf CE-Geräten.

Es gibt auch das Open-Source-Projekt CMU Sphinx . Sie haben eine Variante genannt, die pocket für tragbare Geräte gezielt wurde.

Lizenziert unter: CC-BY-SA mit Zuschreibung

Nicht verbunden mit StackOverflow