Domanda

Tutti gli algoritmi voice-to-text della tecnologia attuale funzionano in tempo reale? Non intendo con una persona seduta al computer con un microfono, ma piuttosto inserire un file audio preregistrato.

vale a dire. Se hai una registrazione vocale di 30 minuti, ci vorranno sempre 30 minuti per essere trascritti?

Esistono approcci diversi là fuori?

È stato utile?

Soluzione

Non vi è alcun motivo per cui il riconoscimento vocale debba richiedere il tempo necessario per la lunghezza dell'audio. Tuttavia, a causa del calcolo richiesto, non penso che non otterrai un algoritmo enormemente più veloce di quello in tempo reale. Vedi questa sezione dell'articolo di Wikipedia per informazioni più dettagliate (non sembra ogni volta, anche se offre una buona panoramica delle prestazioni).

Altri suggerimenti

Non c'è nulla che fermi l'esecuzione dell'algoritmo più velocemente del tempo reale. Il programma software Naturally Speaking 10 Professional fornisce una "trascrizione da file" opzione per convertire la dettatura presa mentre si è lontani da un computer, funziona velocemente quanto il computer su cui è in esecuzione può raggiungere.

Credo che esistano implementazioni di elaborazione batch nell'area dell'intelligenza dei segnali, ma tali programmi sarebbero, naturalmente, non disponibili per la popolazione generale.

Autorizzato sotto: CC-BY-SA insieme a attribuzione
Non affiliato a StackOverflow
scroll top