Le stockage des données à partir SequenceFile Apache Pig
-
19-09-2019 - |
Question
Apache Pig peut charger des données à partir de fichiers de séquence en utilisant le Hadoop SequenceFileLoader
de PiggyBank:
REGISTER /home/hadoop/pig/contrib/piggybank/java/piggybank.jar;
DEFINE SequenceFileLoader org.apache.pig.piggybank.storage.SequenceFileLoader();
log = LOAD '/data/logs' USING SequenceFileLoader AS (...)
Y at-il une bibliothèque là-bas qui permettrait à l'écriture de fichiers de séquence Hadoop de porc?
La solution
Il est juste une question de mettre en œuvre un StoreFunc de le faire.
Ceci est possible maintenant, bien qu'il devienne un peu plus facile juste une fois de porc 0,7 sort, car il comprend une refonte complète des interfaces de chargement / stockage.
Le "pack d'extension Hadoop" Twitter est sur le point d'ouvrir la source open source github , inclut le code pour générer funcs de chargement et de stockage basé sur Google Protocol Buffers (__gVirt_NP_NN_NNPS<__ bâtiment sur les formats d'entrée / sortie pour même - vous avez déjà ceux des fichiers de séquence, évidemment). Check it out si vous avez besoin d'exemples de la façon de faire certaines des choses moins trivial. Il devrait être assez simple cependant.
Autres conseils
Cela semblait fonctionner pour moi. https://github.com/kevinweil/elephant-bird/pull/73