Le stockage des données à partir SequenceFile Apache Pig

https://stackoverflow.com/questions/2423949

19-09-2019
|

Question

Apache Pig peut charger des données à partir de fichiers de séquence en utilisant le Hadoop SequenceFileLoader de PiggyBank:

REGISTER /home/hadoop/pig/contrib/piggybank/java/piggybank.jar;

DEFINE SequenceFileLoader org.apache.pig.piggybank.storage.SequenceFileLoader();

log = LOAD '/data/logs' USING SequenceFileLoader AS (...)

Y at-il une bibliothèque là-bas qui permettrait à l'écriture de fichiers de séquence Hadoop de porc?

La solution

Il est juste une question de mettre en œuvre un StoreFunc de le faire.

Ceci est possible maintenant, bien qu'il devienne un peu plus facile juste une fois de porc 0,7 sort, car il comprend une refonte complète des interfaces de chargement / stockage.

Le "pack d'extension Hadoop" Twitter ~~est sur le point d'ouvrir la source~~ open source github , inclut le code pour générer funcs de chargement et de stockage basé sur Google Protocol Buffers (__gVirt_NP_NN_NNPS<__ bâtiment sur les formats d'entrée / sortie pour même - vous avez déjà ceux des fichiers de séquence, évidemment). Check it out si vous avez besoin d'exemples de la façon de faire certaines des choses moins trivial. Il devrait être assez simple cependant.

Autres conseils

Cela semblait fonctionner pour moi. https://github.com/kevinweil/elephant-bird/pull/73

Licencié sous: CC-BY-SA avec attribution

Non affilié à StackOverflow