我的任务是为Rails应用程序实施基于黑名单的亵渎过滤器。我知道基于黑名单的过滤存在很多问题,但是该决定是在我头顶上做出的。挑战:我正在寻找一个很好的西班牙亵渎清单,可以遇到过滤器。对于英语,我们在列表上构建,该列表详尽地列出了共轭/plurals/ett,每行文本文件一个。这样的列表中是否存在西班牙语的公共领域?

有帮助吗?

解决方案

找到好的清单并调整他们很困难。听起来您还在做很多可以自动化的手动工作(即结合)。我为我的公司做了很多 亵渎过滤器名为Cleanspeak 其中大部分可以使用单词的POS标识符自动化,在许多情况下,您可以手动进行POS标签或找到POS源。

您还需要考虑列表的质量以及过滤器的上限和管理。许多人认为这很简单,然后意识到要防止假阳性非常困难。

综上所述,我们发现其他语言的大多数清单难以通过网上汇集,最终付出了代价,以从其他公司那里购买许多建造或购买。一旦我们翻译它们,我们确实在网上发现的清单几乎一文不值。我们还试图将黑名单删除并进行了翻译,这是一个完全的失败,因为大多数英语亵渎性没有其他语言。我建议您购买清单或与您当地大学的学生一起生成清单。我们的许多客户发现这种方法相对较好且不过于昂贵。

我还建议您查看一些定义管理用户生成内容的最佳方法的资源。这些将有助于指导您完成任何构建与购买决策。

许可以下: CC-BY-SA归因
不隶属于 StackOverflow
scroll top