题
解析存储在数据库中的大型文本(5000 个单词及更多)、搜索名称的最佳方法是什么?文本将是多语言的。
我的第一个想法是一个相当幼稚的方法,获取所有以大字母开头的单词并将它们与数据库进行比较。但在仅包含小写字母的文本中,这往往会失败。
编辑文本不是静态的,而是动态的(例如网站)
最好的
麦克斯
解决方案
其他提示
可以使用阿霍 - Corasick算法和构建字典的您试图匹配的名字。这是在文本加匹配名称的数量的令牌数量线性。
您将需要一个名称词典。
或者你可以尝试 http://www.opencalais.com/ ,知道相当大集合的名称。
我在这里制作了一种替换大文本中的多个字符串的方法: 替换许多字符串的更好方法 - C# 中的混淆. 。也许你可以使用同样的原理。
不隶属于 StackOverflow