Y at-il des bibliothèques ou des techniques pour « noisifying » des données textuelles?

https://datascience.stackexchange.com/questions/14805

16-10-2019
|

Question

données augmentation techniques de données d'image et des données audio (par exemple, la reconnaissance vocale) ont fait leurs preuves et sont maintenant communs.

Y at-il des bibliothèques ou des techniques pour augmenter text données?

Par exemple:

: «Comment vas-tu?
out: [? comment allez-vous », 'COMMENT ÊTES-VOUS?', 'hwo sont y ou?', 'comment r u', ... 'Comment ça?]

La solution

Je vous voulez une sorte de jeux de données comme Google vérification orthographique des données que je vous suggère de regarder dans le L'erreur Wiked l'ensemble de données de Corpus. Le corpus est composé de plus de 12 millions de phrases avec un total de 14 millions d'éditions de divers types, ces modifications comprennent: corrections d'erreurs d'orthographe, des corrections d'erreur de grammaire, les changements stylistiques. Tous ces de l'histoire de correction Wikipedia. Les propriétaires (auteurs) de l'ensemble de données décrivent le processus d'extraction de données dans ce papier . Jetez également cette question dans Quora il contient des liens vers différents ensembles de données avec les fautes d'orthographe. Enfin cette page peut également être utile.

Autres conseils

Vous pouvez coder certaines règles simples comme celles que vous avez mentionnées dans la question. De plus, vous pouvez utiliser des bases de connaissances comme Freebase et WordNet pour enrichir votre modèle de langage. Notez que ce ne sera pas nécessairement « noisify » vos données, mais aurait un effet similaire à l'effet sur l'augmentation des données sur les images pour les tâches en aval disons.

Licencié sous: CC-BY-SA avec attribution

Non affilié à datascience.stackexchange