Frage

Haben alle Voice-to-Text-Algorithmen der aktuellen Technologie in Echtzeit arbeiten? Damit meine ich nicht mit einer Person mit einem Mikrofon sitzt an einem Computer, sondern eine vorher aufgezeichnete Audiodatei inputing.

d. Wenn Sie eine 30-minütige Sprachaufzeichnung haben, wird es immer 30 Minuten dauert transkribiert werden?

Gibt es verschiedene Ansätze gibt?

War es hilfreich?

Lösung

Es gibt keinen Grund, warum Spracherkennung so lange dauern muss, wenn die Länge des Audio durchgeführt werden. Jedoch aufgrund der Berechnung erforderlich Ich glaube nicht, dass Sie nicht ein enorm schneller als Echtzeit-Algorithmus erhalten werden. Siehe diesem Abschnitt der Wikipedia-Artikel für weitere Informationen (es scheint nicht zu gibt alle Zeiten, obwohl es einen anständigen Überblick über die Leistung nicht geben).

Andere Tipps

Es gibt nichts, um den Algorithmus zu stoppen läuft schneller als in Echtzeit. Die Naturally Speaking 10 Professional Software-Programm eine „aus der Datei transkribieren“ für Diktat, während weg von einem Computer genommen Umwandlung Option bieten, dies so schnell wie der Computer funktioniert, auf das es erreichen kann, ausgeführt wird.

Ich glaube, Stapelverarbeitung Implementierungen im Bereich der Signale Intelligenz existiert aber solche Programme würden natürlich auf die allgemeine Bevölkerung nicht zur Verfügung.

Lizenziert unter: CC-BY-SA mit Zuschreibung
Nicht verbunden mit StackOverflow
scroll top