交叉参考数据库在数据模糊

题

我目前工作上的项目在那里我有匹配起来的大量用户生成的名称与一个单独的清单的相同的名称在一个规范格式。问题是，用户生成的名称含有许多错误拼写，缩略语，以及根本无效的数据，使得它很难做到的交叉引用与规范的数据。任何建议的方法做到这一点？

这并不是必须做的实时和在这种情况下准确性是更重要的不是速度。

目前的想法是：

任何人有任何反馈意见对任何这些，或者自己的想法?

我的一个关切的是，没有上述的方法将处理写得很好。任何人都可以指给我方向一些机学习方法的实际搜索的在扩大的缩略语(或者告诉我，我疯狂的)?在此先感谢。

解决方案

首先，我会加到你的清单的技术讨论彼得Norvig后在拼写的修正.

第二，我要求什么样的"用户-生成的名称"你正在谈论的。具有处理两个，我认为，在试探你会用于街道名称略有不同的启发式的人的名字。(作为一个简单的例子，没有"博士"扩大"驱动"或"医生"？)

第三，我想看看结合使用测试，以建立设置的系数，用于结合的结果的各种技术。

许可以下： CC-BY-SA 和归因