解析存储在数据库中的大型文本(5000 个单词及更多)、搜索名称的最佳方法是什么?文本将是多语言的。

我的第一个想法是一个相当幼稚的方法,获取所有以大字母开头的单词并将它们与数据库进行比较。但在仅包含小写字母的文本中,这往往会失败。

编辑文本不是静态的,而是动态的(例如网站)

最好的

麦克斯

有帮助吗?

解决方案

其他提示

可以使用阿霍 - Corasick算法和构建字典的您试图匹配的名字。这是在文本加匹配名称的数量的令牌数量线性。

您将需要一个名称词典。

或者你可以尝试 http://www.opencalais.com/ ,知道相当大集合的名称。

我在这里制作了一种替换大文本中的多个字符串的方法: 替换许多字符串的更好方法 - C# 中的混淆. 。也许你可以使用同样的原理。

许可以下: CC-BY-SA归因
不隶属于 StackOverflow
scroll top