¿Hay bibliotecas o técnicas para "noisificar" datos de texto?

https://datascience.stackexchange.com/questions/14805

16-10-2019
|

Pregunta

Aumento de datos Las técnicas para datos de imágenes y datos de audio (por ejemplo, reconocimiento de voz) han demostrado ser exitosos y ahora son comunes.

¿Hay bibliotecas o técnicas para aumentar? texto ¿datos?

Por ejemplo:

En: '¿Cómo estás?'
Fuera: ['¿Cómo estás?', '¿Cómo estás?', '¿Eres tú?', '¿Cómo estás?', '¿Cómo estás', ...

Solución

¿Quieres algún tipo de conjuntos de datos como los datos de comprobación de ortografía de Google? Le sugiero que investigue el El corpus de error wiked conjunto de datos. El corpus consta de más de 12 millones de oraciones con un total de 14 millones de ediciones de varios tipos, estas ediciones incluyen: correcciones de errores de ortografía, correcciones de errores gramaticales, cambios estilísticos. Todo esto de la historia de corrección de Wikipedia. Los propietarios (autores) del conjunto de datos describen el proceso de minería de datos en este papel. También verifique esta pregunta en quora Contiene enlaces a varios conjuntos de datos con errores de ortografía. Finalmente esto página también puede ser útil.

Otros consejos

Puede codificar ciertas reglas simples como las que ha mencionado en la pregunta. Además, puede usar bases de conocimiento como Base libre y Wordnet para enriquecer su modelo de idioma. Tenga en cuenta que esto no necesariamente "ruisificará" sus datos, sino que tendrá un efecto similar al efecto sobre el aumento de datos en las imágenes, por ejemplo, para tareas aguas abajo.

Licenciado bajo: CC-BY-SA con atribución

No afiliado a datascience.stackexchange