Domanda

C'è una differenza tra dire che n file con 1 riga ciascuno nella cartella di input e avere 1 file con n righe nella cartella di input quando si esegue hadoop?

Se sono presenti n file, il " InputFormat " vedi tutto come 1 file continuo?

È stato utile?

Soluzione

C'è una grande differenza. Viene spesso indicato come "problema dei file piccoli" e ha a che fare con il fatto che Hadoop prevede di dividere input giganti in attività più piccole, ma non di raccogliere input piccoli in attività più grandi.

Dai un'occhiata a questo post sul blog di Cloudera: http://www.cloudera.com/blog / 2009/02/02 / i-piccole-files-problema /

Se riesci a evitare di creare molti file, fallo. Concatenare quando possibile. I file divisibili di grandi dimensioni sono MOLTO migliori per Hadoop.

Una volta ho eseguito Pig nel set di dati netflix. Ci sono volute ore per elaborare solo alcuni concerti. Ho quindi concatenato i file di input (penso che fosse un file per film o un file per utente) in un singolo file: il mio risultato è stato in pochi minuti.

Autorizzato sotto: CC-BY-SA insieme a attribuzione
Non affiliato a StackOverflow
scroll top