如何处理文档中的拼写单词以进行文本挖掘任务?
-
28-09-2019 - |
题
我有一组非正式文档(成千上万个),我想应用主题建模(槌)。问题是,文档中有大量拼写错误的单词。大多数是故意的,例如短形式和本地术语,例如`'juz' - >'Just','alr' - >'已经'。由于作者的特殊写作风格,存在其中的几个变体。
将它们喂给槌槌后,我有点想知道生成的主题之一实际上是一组拼写错误的停止字样。我相信这些词主要用于同一位作者的一小部分文档子集,因此Mallet将其捡起来。
我的问题是,我是否拼写检查并纠正这些拼写错误的单词,也许在进行进一步的任务之前,也许将校正后的文本保存在某处?我想这意味着我确实需要在进行正确之前手动验证更正吗?做这件事的最“有效”的方法是什么?
还是我实际上忽略了这些拼写错误的单词?
其他提示
我认为我们无法在不知道拼写错误的单词或不正确的拼写错误的单词对您的主题建模结果的影响。因此,如果您能提供更多信息,那就很好。
但是,我本来会认为您想纠正它们,至少在校正显然是原始作者的意图的情况下。
不隶属于 StackOverflow