是否有“噪声”文本数据的库或技术?
-
16-10-2019 - |
题
数据增强 图像数据和音频数据的技术(例如,语音识别)已被证明是成功的,现在很普遍。
是否有图书馆或技术来增加 文本 数据?
例如:
在:“你好吗?”
出来:['你好吗?','你好吗?','hwo是你吗?
解决方案
我想要某种数据集,例如Google拼写检查数据,建议您查看 Wiked错误语料库 数据集。该语料库包括超过1200万句,总共有1400万种不同类型的句子,该编辑包括:拼写错误校正,语法错误校正,风格上的更改。所有这些都来自Wikipedia校正历史。数据集的所有者(作者)在此描述了数据挖掘过程 纸. 。还要在 Quora 它包含指向带有拼写错误的各种数据集的链接。最后 页 也可能有用。