Domanda

Sto lavorando al software di build personalizzato per la ricerca postale basata sui dati PAF Royal Mail. Lo scopo principale di quel software è sostituire l'indirizzo rapido (fornitore di software di terze parti).

Ho alcune domande

  1. Come mai i file di dati degli indirizzi rapidi, compresi gli indici, sono inferiori a 500 MB, mentre se si guardano i dati grezzi PAF sono oltre 2,50 GB. Quali tecniche di pulizia e compressione hanno eseguito su dati grezzi per raggiungere questo obiettivo. La mia dimensione DB importata è di 2,50 GB (SQLite). Devo usare un po 'di DB gratuito/open source e il DB a pagamento non è la mia opzione qui.

  2. Ci sono 28 milioni di record. Come posso migliorare la ricerca in base al nome dell'organizzazione o alla città, ad esempio considerando che può essere eseguita usando la dichiarazione "Mi piace"?

Qualche idea?

Nessuna soluzione corretta

Autorizzato sotto: CC-BY-SA insieme a attribuzione
Non affiliato a StackOverflow
scroll top