Скруббер адресов с открытым исходным кодом?

StackOverflow https://stackoverflow.com/questions/291728

  •  08-07-2019
  •  | 
  •  

Вопрос

У меня есть набор имен и адресов, которые были введены в электронную таблицу Excel, но проблема в том, что многие люди, вводившие адреса, вводили их в разных нестандартных форматах.Я хочу очистить адреса перед их переносом в мою базу данных.Осмотревшись, я обнаружил, что все скраберы адресов (парсеры или форматтеры) выдаются Семафор.Для моих целей мне все это не нужно, и я не хочу платить за лицензию на программное обеспечение.Есть ли что-нибудь бесплатное и/или с открытым исходным кодом, которое поможет мне очистить все?

Это было полезно?

Решение

Так как я работаю в почтовом бизнесе ...

Почтовый адрес не является геокодированием. Один позволяет USPS доставлять почту, а другой сообщает вам, где этот пункт находится. USPS не геокодирует свои почтовые адреса. Это полезно для маркировки областей / областей людей для таргетинга.

Вы не покупаете лицензию на программное обеспечение, вы покупаете данные. Почтовое отделение имеет множество правил, особенно если вы делаете это коммерчески и пытаетесь получить лучшую ставку, чем первый класс. См. Руководство по внутренней почте USPS для получения полного списка правил. USPS постоянно перемещает почтовые индексы и домашние хозяйства между почтовыми индексами. Компания (на которую я работаю) платит USPS за обновленный список рассылки, чтобы мы могли обновлять наши базы данных. Weekly.

Вернуться к вашему вопросу. Хотите изменить данные в общий формат (улица -> st) или вы ищете дубликаты и хотите хранить только реальные почтовые адреса?

для общего формата; Вы можете разбить адрес на части, очистить пробелы и применить словарь терминов / переводов. Затем примените некоторые sql, чтобы найти дубликаты. Помните, что домохозяйства (1 главный дом) отличаются от людей (Джон Доу, 1 главный дом).

Что касается почтовых адресов, некоторым из вас (читателям) не понравится этот ответ, но вам нужна информация, и она не бесплатна. Кто-то тратит время или деньги на приобретение и ведение этих списков. Итак, найдите бизнес-модель для получения средств для списка или обратитесь к тому, кто сделает это за вас. Управление данными и почтой

Реально, Семафор довольно дешевый, просто имейте в виду, что адрес db придется обновлять ежеквартально и $ 19 / квартал довольно дешево.

Другой продукт для очистки адреса. SAP PostalSoft . Я не знаю, сколько будут стоить данные.

Другие советы

На самом деле я работаю в сфере проверки адресов...Ответ Джима — разумное согласие.К сожалению для тех из нас, у кого небольшой бюджет, официальные данные USPS дороги, а системы сложны.(Знаю по опыту, так как компания, в которой я работаю, SmartyStreets, обеспечивает проверку адреса по более низкой цене, чем большинство других.)

Лучшее, что я могу здесь сделать, чтобы помочь, это порекомендовать недорогую/бесплатную альтернативу (в зависимости от вашего объема), например LiveAddress, где для списка адресов нет минимальной суммы покупки, а API очень дешевый и очень простой. сравнительно.

Оболочка .NET для API-интерфейсов USPS

http://www.codeproject.com/KB/cs/USPS_Web_Tools_Wrapper.aspx

Большая часть программного обеспечения, с которым я работал, очень дорогая (или, иначе говоря, отделы маркетинга наивны и имеют огромные бюджеты).

Такая работа предшествует геокодированию. Эта связанная статья вики содержит список программного обеспечения для геокодирования, некоторые из которых бесплатны. Если вам повезет, некоторые из бесплатных программ могут включать процедуры стандартизации адресов.

Если найдешь хороший, дай мне знать.

Мы используем Accuzip. Это намного дешевле, чем большинство решений (~ 700 долларов США в год) и поставляется с обновлением каждые два месяца. Он использует API стандартизации адресов USPS, для которого я написал оболочку .NET. Это позволяет мне запускать его в режиме реального времени (Accuzip по умолчанию поставляется только в пакетном режиме).

Лицензировано под: CC-BY-SA с атрибуция
Не связан с StackOverflow
scroll top