如何处理文档中的拼写单词以进行文本挖掘任务？

题

我有一组非正式文档（成千上万个），我想应用主题建模（槌）。问题是，文档中有大量拼写错误的单词。大多数是故意的，例如短形式和本地术语，例如`'juz' - >'Just'，'alr' - >'已经'。由于作者的特殊写作风格，存在其中的几个变体。

将它们喂给槌槌后，我有点想知道生成的主题之一实际上是一组拼写错误的停止字样。我相信这些词主要用于同一位作者的一小部分文档子集，因此Mallet将其捡起来。

我的问题是，我是否拼写检查并纠正这些拼写错误的单词，也许在进行进一步的任务之前，也许将校正后的文本保存在某处？我想这意味着我确实需要在进行正确之前手动验证更正吗？做这件事的最“有效”的方法是什么？

还是我实际上忽略了这些拼写错误的单词？

解决方案

目前，您如何处理停止词？如果您要进行主题建模，那么将它们过滤掉是有意义的。如果是这样，为什么不滤除这些条款？

编辑回复回复

关于LDA内部的终止词的研究更为有原则，有一些研究。有两篇论文浮现在脑海：

[1]使用一个术语加权方案，显然有助于他们设置的预测任务，[2]在单词分布上使用非对称的先验，显然会导致一些主题，其中包含所有停止单词，而其他单词则是整个语料库的共同点。

在我看来，自动推断停止单词和LDA中其他非主题单词的最佳方法仍然是一个研究问题。

其他提示

我认为我们无法在不知道拼写错误的单词或不正确的拼写错误的单词对您的主题建模结果的影响。因此，如果您能提供更多信息，那就很好。

但是，我本来会认为您想纠正它们，至少在校正显然是原始作者的意图的情况下。

许可以下： CC-BY-SA 和归因