是否有“噪声”文本数据的库或技术？

https://datascience.stackexchange.com/questions/14805

16-10-2019
|

题

数据增强 图像数据和音频数据的技术（例如，语音识别）已被证明是成功的，现在很普遍。

是否有图书馆或技术来增加文本数据？

例如：

在：“你好吗？”
出来：['你好吗？'，'你好吗？'，'hwo是你吗？

解决方案

我想要某种数据集，例如Google拼写检查数据，建议您查看 Wiked错误语料库数据集。该语料库包括超过1200万句，总共有1400万种不同类型的句子，该编辑包括：拼写错误校正，语法错误校正，风格上的更改。所有这些都来自Wikipedia校正历史。数据集的所有者（作者）在此描述了数据挖掘过程纸. 。还要在 Quora 它包含指向带有拼写错误的各种数据集的链接。最后页也可能有用。

其他提示

您可以像问题中提到的那样对某些简单规则进行编码。此外，您可以使用知识库 freebase 和 WordNet 丰富您的语言模型。请注意，这不一定会“使您的数据噪声”，而是与对数据增强对下游任务的效果的影响相似。

许可以下： CC-BY-SA 和归因

不隶属于 datascience.stackexchange