c# – 地址匹配密钥算法

前端之家收集整理的这篇文章主要介绍了c# – 地址匹配密钥算法前端之家小编觉得挺不错的,现在分享给大家,也给大家做个参考。
我在两个单独的表中有一个地址列表,略微偏离我需要能够匹配.例如,可以通过多种方式输入相同的地址:

> 110 Test St
> 110 Test St.
> 110 Test Street

虽然简单,但您可以想象更复杂的场景中的情况.我正在尝试开发一种能够将上述地址作为关键字匹配的简单算法.

例如.关键可能是“11TEST” – 110的前两个,测试的前两个和街道变体的前两个.完整匹配键也将包括前5个邮政编码,因此在上面的示例中,完整键可能看起来像“11TEST44680”.

我正在寻找有效算法或资源的想法,我可以在开发时考虑这些因素.任何想法都可以是伪代码或您选择的语言.

我们只关心美国的地址.事实上,我们只查看来自俄亥俄州和密歇根州的250个邮政编码的地址.我们也无法访问任何邮政软件,尽管对于具有成本效益的解决方案的想法是开放的(它基本上是一次性使用).请注意,这是来自政府来源的初始数据转储,因此有关用户如何清理它的建议对我构建应用程序很有帮助,但我希望能够将地址匹配为最佳状态.尽可能好.

解决方法

我正在研究类似的算法,它应该在我完成时处理加拿大,美国,墨西哥和英国的地址.我面临的问题是他们在我们的数据库中以3字段明文格式[谁认为这是一个好主意应该被拍摄恕我直言],所以试图处理农村路线,一般交付,大容量接收器,多个国家,省与州与县,邮政编码与邮政编码,拼写错误是一个不小或简单的任务.

拼写错误本身并不是一件小事 – 尤其是当你到达使用法国名字的国家时 – 匹配Saint,Sainte,St,Ste,Saints,Saintes,Sts,Stes,Grand,Grande,Grands,Grandes,有或没有句号或连字符名称的较大部分不会导致性能问题的终结 – 特别是当St可能意味着圣人或街道,并且可能或可能没有进入正确的背景(即女性与男性).如果地址输入正确但省份或邮政编码不正确怎么办?

一个开始搜索的地方是Levenstein Distance Algorithm,我发现它对消除大部分拼写错误非常有用.之后,主要是搜索关键字并与邮政数据库进行比较.

我真的很想与目前正在开发工具的任何人合作,也许我们可以互相协助,找到一个共同的解决方案.我已经成为那里的一部分并且已经克服了我到目前为止提到的所有问题,让其他人研究同样的问题对于反弹意见真的很有帮助.

干杯 – [ben at afsinc dot ca]

原文链接:https://www.f2er.com/csharp/244675.html

猜你在找的C#相关文章