我目前工作上的项目在那里我有匹配起来的大量用户生成的名称与一个单独的清单的相同的名称在一个规范格式。问题是,用户生成的名称含有许多错误拼写,缩略语,以及根本无效的数据,使得它很难做到的交叉引用与规范的数据。任何建议的方法做到这一点?

这并不是必须做的实时和在这种情况下准确性是更重要的不是速度。

目前的想法是:

  1. 做一个模糊的用户搜索所输入的名字在规范数据库使用现有的搜索执行情况等分类:设或狮身人面像,这是我的想使用类似的编辑距离。
  2. 交叉参考上SOUNDEX哈希(这是所谓的计算上的声音的名称,而不是拼写)而不是使用的实际名称。
  3. 一些上述的组合

任何人有任何反馈意见对任何这些,或者自己的想法?

我的一个关切的是,没有上述的方法将处理写得很好。任何人都可以指给我方向一些机学习方法的实际搜索的在扩大的缩略语(或者告诉我,我疯狂的)?在此先感谢。

有帮助吗?

解决方案

首先,我会加到你的清单的技术讨论 彼得Norvig后在拼写的修正.

第二,我要求什么样的"用户-生成的名称"你正在谈论的。具有处理两个,我认为,在试探你会用于街道名称略有不同的启发式的人的名字。(作为一个简单的例子,没有"博士"扩大"驱动"或"医生"?)

第三,我想看看结合使用测试,以建立设置的系数,用于结合的结果的各种技术。

许可以下: CC-BY-SA归因
不隶属于 StackOverflow
scroll top