Come posso dumb down nostra avanguardia Text-to-Speech?

https://stackoverflow.com/questions/3757226

04-10-2019
|

Domanda

Torna ai vecchi tempi, text-to-speech, come tagliente come lo era, era molto imperfetta. Quando digitate in una parola, sarebbe più o meno leggere come si digitato è ... in monotona. Spesso, il risultato sarebbe molto divertente. Al giorno d'oggi, Text-to-Speech è troppo intelligente per Goof in modi che possono portare una risata.

Come un progetto personale, mi piacerebbe fare a un'applicazione in grado di riportare questo vecchio stile di text-to-speech, anche se solo come un giocattolo. In .Net, ho a mia disposizione sia System.Speech.dll e gli oggetti COM SpeechLib. (Microsoft Speech Object Library) Entrambi sembrano utilizzare il sistema operativo del costruito in Text-to-Speech, che ancora una volta, è troppo dang intelligente. Ci sono dei modi per configurare questi per disabilitare qualunque cosa è che rende intelligenti?

Ho provato un paio di opzioni 'Sayas' diverse, ho provato a fissare la cultura invarianti (eccezione!), E ora sto guardando SSML. Sta cominciando ad assomigliare dovrò trovare la vecchia tecnologia in sé, ma io non so nemmeno da dove cominciare lì.

Come esempio del caos che sto sperando di vedere, ecco qualche Base Lunare Alpha per voi: http://www.youtube.com/watch?v=Hv6RbEOlqRo (assicuratevi che si indossa le cuffie!)

Con ciccia questi text-to-fonema convertitori diavolerie, e normalizzatori e telefoni senza cavi, e ...

Soluzione 2

Bene, ho appena riuscito a inciampare in tutto il vecchio "Microsoft Voice Text" libreria: vtext.dll

Questo sembra essere quello che cercavo! Rispetto alle moderne librerie TTS, l'interfaccia è molto semplice. Il risultato non sembra essere esattamente lo stesso come la voce in quel video ho linkato, ma che era probabilmente un'implementazione diversa. In entrambi i casi, è il momento per ricordare.

var tts = new HTTSLib.TextToSpeech();
tts.Speak("ebrbrbrbrbrbrbrbr");

Per qualche ragione si blocca vshost.exe quando faccio che dire "qui". Ma dal momento che questo è solo un progetto personale muto, posso ignorarlo.

Altri suggerimenti

Probabilmente si desidera quello che è stato chiamato il "Algorithm NRL", che è stato utilizzato dal Votrax sintetizzatori vocali negli anni 1970 e 1980. Mi ricordo di un mio amico ha avuto una di quelle che abbiamo collegato (tramite porta seriale) al mio Osborne I. Abbiamo fatto un sacco di risate fuori il modo in cui "ha detto" le cose. "Computer" è uscito "com poo ter", per esempio.

O forse era un MicroVox che il mio amico aveva. Che sembra suonare un campanello. Al momento, tutto il testo a caselle vocali utilizzato praticamente la stessa tecnologia. L'articolo collegato è una fonte di informazioni. Circa a metà strada verso il basso è una sezione piuttosto lungo sul testo per la conversione speech. Esso descrive le regole e l'algoritmo di base. Ho il sospetto che, con un po 'di studio e sperimentazione, si potrebbe duplicare la sintesi del discorso del MicroVox.

L'algoritmo NRL è stato attuato dal Unix comando parlare , la fonte di che apparentemente è perso alla grande po secchio di storia. Tuttavia, M.D. McIlroy scritto un articolo su di esso. sintetico discorso Inglese, regola (si tratta di un file tar che contiene pagine digitalizzate).

Questo sarebbe un progetto divertente da giocare con se ho avuto il tempo. Buona fortuna su di esso. Fammi sapere se si arriva da nessuna parte con esso.

Autorizzato sotto: CC-BY-SA insieme a attribuzione

Non affiliato a StackOverflow