Quel est le meilleur format de fichier pour stocker une matrice 2D non compressé?

datascience.stackexchange https://datascience.stackexchange.com/questions/9877

  •  16-10-2019
  •  | 
  •  

Question

Pour ce que ça vaut mon cas particulier est une matrice symétrique, mais cette question doit répondre de façon plus générale.

Était-ce utile?

La solution

Le format le plus compatible est sûrement CSV / TSV. Ce texte de et vous pouvez généralement gzip à la volée avec le logiciel que vous utilisez. Il n'y a pas de format largement normalisé pour stocker des données de réseau matriciel. Matlab a ses fichiers * .mat, NumPy a * .npz, Stata et SAS ont leur propre ... Best il suffit d'utiliser un fichier texte clair.

Si la matrice est symétrique, si elle est très grande ou s'il y aura beaucoup d'entre eux, vous pourriez épargner 50% dans l'encombrement en stockant seulement la partie triangulaire inférieure (ou supérieure) de celui-ci. Si vous avez choisi de le faire, il y a, encore une fois, le format ne largement acceptée. Il suffit de stocker la forme d'abord, puis la aplaties, les données 1D.

Autres conseils

J'aller avec .csv comme il est universellement accepté et peut être lu facilement dans différents langages de programmation. En outre, vous pouvez simplement l'ouvrir avec un logiciel de bureau. Si vous utilisez votre matrice seulement en Python Je recommande également bibliothèque Pickle qui écrit votre matrice dans un < em> .p et le format peut être lu facilement en Python avec une simple fonction de la charge.

Licencié sous: CC-BY-SA avec attribution
scroll top