Pergunta

Eu preciso criar saída no formato orcfile.De acordo com esta página ( http://hortonworks.com/ blog / orcfile-in-hdp-2-melhor-compactação-melhor desempenho / ) é o melhor.

Perguntas?

1) Que codec devo usar para criar arquivos no formato orcfile? 2) são os arquivos criados neste formato legível usando a opção Text (e.g.

hadoop fs -cat -text /tmp/a.orc

3) quaisquer outros ponteiros?É cedo demais para usar este formato?Prós e contras?

obrigado.

Foi útil?

Solução

Para criar dados no OrcFile na colmeia, basta usar a frase "armazenada como orc" no final da definição da tabela e carregar seus dados.Você também pode usar o Sqoop para importar diretamente para o Orc usando a opção de importação HCATALOG.

Há também uma ferramenta chamada OrcFileDump que ajuda a analisar os dados armazenados como orc, oferecendo uma lista de colunas, tipos e estatísticas.

Você não pode usar -cat para ler orc diretamente, mas você pode facilmente exportar dados orc para um arquivo CSV.

Outras dicas

1) Que codec devo usar para criar arquivos no formato orcfile?

Bem, a compensação com compressão é o desempenho.Melhor seria usar qualquer compactação se o tamanho dos dados não for um gargalo, pois lhe daria desempenho máximo.

é na ordem Nenhum -> Snappy -> Zlib (diminuindo em termos de desempenho e tamanho)

Licenciado em: CC-BY-SA com atribuição
Não afiliado a StackOverflow
scroll top