Ci sono biblioteche o le tecniche per 'noisifying' i dati di testo?

https://datascience.stackexchange.com/questions/14805

16-10-2019
|

Domanda

Dati aumento le tecniche per i dati delle immagini e dati audio (ad esempio, il riconoscimento vocale) hanno dimostrato di successo e sono ormai comuni.

Ci sono biblioteche o le tecniche per aumentare testo di dati?

Ad esempio:

in: 'Come stai?'
out: [ '? come stai', 'Come stai?', 'hwo sono y ou?', 'Come ti?', 'come r u', ...]

Soluzione

ti voglio un qualche tipo di insiemi di dati come il controllo ortografico di Google dei dati Vi suggerisco di guardare in L'errore Wiked Corpus set di dati. Il corpus è costituito da più di 12 milioni di frasi con un totale di 14 milioni di modifiche di vario tipo, questo modifiche includono: la correzione di errori di ortografia, correzioni di errori grammaticali, cambiamenti stilistici. Tutti questi dalla storia correzione di Wikipedia. I proprietari (autori) del set di dati descrivono il processo di data mining in questo carta . Controllare anche a questa domanda in quorum contiene link a vari insiemi di dati con errori di ortografia. Infine, questa pagina può anche essere utile.

Altri suggerimenti

È possibile codificare alcune regole semplici come quelli che hai menzionato nella domanda. Inoltre, è possibile utilizzare le basi di conoscenza come Freebase e WordNet per arricchire il vostro modello di linguaggio. Si noti che questo non necessariamente "Noisify" i vostri dati, ma avrebbe avuto effetto simile all'effetto sulla mastoplastica dati sulle immagini dirlo con le attività a valle.

Autorizzato sotto: CC-BY-SA insieme a attribuzione

Non affiliato a datascience.stackexchange