Costruire la ricerca dell'indirizzo post -codice basato su Royal Mail PAF Raw Data
-
29-10-2019 - |
Domanda
Sto lavorando al software di build personalizzato per la ricerca postale basata sui dati PAF Royal Mail. Lo scopo principale di quel software è sostituire l'indirizzo rapido (fornitore di software di terze parti).
Ho alcune domande
Come mai i file di dati degli indirizzi rapidi, compresi gli indici, sono inferiori a 500 MB, mentre se si guardano i dati grezzi PAF sono oltre 2,50 GB. Quali tecniche di pulizia e compressione hanno eseguito su dati grezzi per raggiungere questo obiettivo. La mia dimensione DB importata è di 2,50 GB (SQLite). Devo usare un po 'di DB gratuito/open source e il DB a pagamento non è la mia opzione qui.
Ci sono 28 milioni di record. Come posso migliorare la ricerca in base al nome dell'organizzazione o alla città, ad esempio considerando che può essere eseguita usando la dichiarazione "Mi piace"?
Qualche idea?
Nessuna soluzione corretta