Domanda

Esistono buoni programmi per gestire la lettura di file CSV di grandi dimensioni?Alcuni dei file di dati di cui mi occupo sono nell'ordine di 1 GB.Hanno troppe righe perché Excel possa gestirle.L'utilizzo di Access può essere un po' lento, poiché è necessario importarli effettivamente in un database per lavorare direttamente con essi.Esiste un programma in grado di aprire file CSV di grandi dimensioni e fornirti un semplice layout di foglio di calcolo per aiutarti a scansionare facilmente e rapidamente i dati?

È stato utile?

Soluzione

MySQL può importare file CSV molto rapidamente nelle tabelle utilizzando il formato LOAD DATA INFILE comando.Può anche leggere direttamente dai file CSV, bypassando qualsiasi procedura di importazione, utilizzando il file Motore di archiviazione CSV.

Importandolo su tabelle native con LOAD DATA INFILE ha un costo di avvio, ma dopo puoi farlo INSERT/UPDATE molto più velocemente, così come i campi indice.Inizialmente l'utilizzo del motore di archiviazione CSV è quasi istantaneo, ma solo la scansione sequenziale sarà veloce.

Aggiornamento: Questo articolo (scorrere fino alla sezione intitolata Caricamenti di dati istantanei) parla dell'utilizzo di entrambi gli approcci per caricare i dati CSV su MySQL e fornisce esempi.

Altri suggerimenti

ho trovato reCSVeditor è un ottimo programma per modificare file CSV di grandi dimensioni.È ideale per eliminare le colonne non necessarie.L'ho usato per file da 1.000.000 di file di registrazione abbastanza facilmente.

vModifica è ottimo per questo.Di solito apro più di 100 mega (so che hai detto fino a un concerto, penso che pubblicizzano sul loro sito che può gestirne il doppio) file con esso.Ha il supporto regex e un sacco di altre funzionalità.70 dollari sono economici per l'importo che puoi farci.

GVim può gestire file di grandi dimensioni gratuitamente se non sei collegato a una visualizzazione delle dimensioni dei campi statici di un vero foglio di calcolo.

vEdit è fantastico ma non dimenticare che puoi sempre tornare al check-out "nozioni di base". Cygwin e iniziare ad agitarsi.

Comandi utili

  • grep
  • Testa
  • coda
  • ovviamente Perla!

Dipende da cosa vuoi effettivamente fare con i dati.Dato un file di testo di grandi dimensioni come quello, in genere desideri solo un sottoinsieme più piccolo di dati alla volta, quindi non trascurare strumenti come "grep" per estrarre i pezzi che desideri cercare e con cui lavorare.

Se riesci a inserire i dati nella memoria e ti piace Python, ti consiglio di controllare la parte UniTable di Augusto.(Disclaimer:Augustus è open source (GPLv2) ma lavoro per l'azienda che lo scrive.)

Non è molto ben documentato ma questo dovrebbe aiutarti ad andare avanti.

from augustus.kernel.unitable import *
a = UniTable().from_csv_file('filename')
b = a.subtbl(a['key'] == some_value) #creates a subtable

Non ti fornirà direttamente un'interfaccia simile a Excel, ma con un po' di lavoro puoi ottenere rapidamente molte statistiche.

Autorizzato sotto: CC-BY-SA insieme a attribuzione
Non affiliato a StackOverflow
scroll top