Criando saída no formato orcfile
Pergunta
Eu preciso criar saída no formato orcfile.De acordo com esta página ( http://hortonworks.com/ blog / orcfile-in-hdp-2-melhor-compactação-melhor desempenho / ) é o melhor.
Perguntas?
1) Que codec devo usar para criar arquivos no formato orcfile? 2) são os arquivos criados neste formato legível usando a opção Text (e.g.
hadoop fs -cat -text /tmp/a.orc
3) quaisquer outros ponteiros?É cedo demais para usar este formato?Prós e contras?
obrigado.
Solução
Para criar dados no OrcFile na colmeia, basta usar a frase "armazenada como orc" no final da definição da tabela e carregar seus dados.Você também pode usar o Sqoop para importar diretamente para o Orc usando a opção de importação HCATALOG.
Há também uma ferramenta chamada OrcFileDump que ajuda a analisar os dados armazenados como orc, oferecendo uma lista de colunas, tipos e estatísticas.
Você não pode usar -cat para ler orc diretamente, mas você pode facilmente exportar dados orc para um arquivo CSV.
Outras dicas
1) Que codec devo usar para criar arquivos no formato orcfile?
Bem, a compensação com compressão é o desempenho.Melhor seria usar qualquer compactação se o tamanho dos dados não for um gargalo, pois lhe daria desempenho máximo.
é na ordem Nenhum -> Snappy -> Zlib (diminuindo em termos de desempenho e tamanho)