Question

Existe-t-il de bons programmes pour gérer la lecture de gros fichiers CSV ?Certains des fichiers de données que je traite sont de l'ordre de 1 Go.Ils ont trop de lignes pour qu’Excel puisse même les gérer.L'utilisation d'Access peut être un peu lente, car vous devez les importer dans une base de données pour pouvoir les utiliser directement.Existe-t-il un programme capable d'ouvrir de gros fichiers CSV et de vous proposer une présentation simple en feuille de calcul pour vous aider à analyser facilement et rapidement les données ?

Était-ce utile?

La solution

MySQL peut importer des fichiers CSV très rapidement sur des tables en utilisant le LOAD DATA INFILE commande.Il peut également lire directement des fichiers CSV, en contournant toute procédure d'importation, en utilisant le Moteur de stockage CSV.

L'importer sur des tables natives avec LOAD DATA INFILE a un coût de démarrage, mais après cela vous pouvez INSERT/UPDATE beaucoup plus rapide, ainsi que les champs d'index.L'utilisation du moteur de stockage CSV est presque instantanée au début, mais seule une analyse séquentielle sera rapide.

Mise à jour: Cet article (faites défiler jusqu'à la section intitulée Chargements de données instantanés) parle de l'utilisation des deux approches pour charger des données CSV sur MySQL et donne des exemples.

Autres conseils

J'ai trouvé reCSVéditeur est un excellent programme pour éditer de gros fichiers CSV.C’est idéal pour supprimer les colonnes inutiles.Je l'ai utilisé pour des fichiers de 1 000 000 de fichiers d'enregistrement assez facilement.

vModifier c'est génial pour ça.J'ouvre régulièrement des fichiers de plus de 100 Mo (je sais que vous avez dit jusqu'à un concert, je pense qu'ils annoncent sur leur site qu'ils peuvent gérer le double de cela).Il prend en charge les expressions régulières et de nombreuses autres fonctionnalités.70 dollars, c'est peu cher pour le montant que vous pouvez en faire.

GVim peut gérer gratuitement des fichiers aussi volumineux si vous n'êtes pas attaché à une véritable vue de taille de champ statique de feuille de calcul.

vEdit est génial mais n'oubliez pas que vous pouvez toujours revenir aux "bases" en consultant Cygwin et commencez à chercher.

Commandes utiles

  • grep
  • tête
  • queue
  • bien sûr en perl !

Cela dépend de ce que vous voulez réellement faire avec les données.Étant donné un fichier texte volumineux comme celui-ci, vous ne souhaitez généralement qu'un sous-ensemble plus petit de données à la fois, alors ne négligez pas les outils tels que «grep» pour extraire les éléments que vous souhaitez rechercher et utiliser.

Si vous pouvez mettre les données en mémoire et que vous aimez Python, je vous recommande de consulter la partie UniTable de Auguste.(Clause de non-responsabilité:Augustus est open source (GPLv2) mais je travaille pour la société qui l'écrit.)

Ce n'est pas très bien documenté mais cela devrait vous aider à démarrer.

from augustus.kernel.unitable import *
a = UniTable().from_csv_file('filename')
b = a.subtbl(a['key'] == some_value) #creates a subtable

Il ne vous donnera pas directement une interface de type Excel, mais avec un peu de travail, vous pourrez obtenir rapidement de nombreuses statistiques.

Licencié sous: CC-BY-SA avec attribution
Non affilié à StackOverflow
scroll top