数据增强 图像数据和音频数据的技术(例如,语音识别)已被证明是成功的,现在很普遍。

是否有图书馆或技术来增加 文本 数据?

例如:

在:“你好吗?”
出来:['你好吗?','你好吗?','hwo是你吗?

有帮助吗?

解决方案

我想要某种数据集,例如Google拼写检查数据,建议您查看 Wiked错误语料库 数据集。该语料库包括超过1200万句,总共有1400万种不同类型的句子,该编辑包括:拼写错误校正,语法错误校正,风格上的更改。所有这些都来自Wikipedia校正历史。数据集的所有者(作者)在此描述了数据挖掘过程 . 。还要在 Quora 它包含指向带有拼写错误的各种数据集的链接。最后 也可能有用。

其他提示

您可以像问题中提到的那样对某些简单规则进行编码。此外,您可以使用知识库 freebaseWordNet 丰富您的语言模型。请注意,这不一定会“使您的数据噪声”,而是与对数据增强对下游任务的效果的影响相似。

许可以下: CC-BY-SA归因
scroll top