O Hadoop para criar um Índice e Add() é distribuído SOLR... isso é possível?Devo usar o Nutch?..Cloudera?

https://stackoverflow.com/questions/4235892

26-09-2019
|

Pergunta

Posso usar um MapReduce framework para criar um índice e, de alguma forma, adicioná-lo a uma distribuído Solr?

Eu tenho uma explosão de informações (arquivos de log e documentos), que será transportado através da internet e armazenados no datacenter (ou Amazonas).Ele precisa ser analisado, indexado, e, finalmente, que pode ser pesquisado por nossa replicado Solr de instalação.

Aqui está a minha proposta de arquitetura:

Use um MapReduce quadro (Cloudera, Hadoop, Nutch, mesmo DryadLinq) preparar os documentos para indexação
Índice esses documentos em um Lucene.NET / Lucene (java) formato de arquivo compatível
Implementar o ficheiro para todos os meus Solr instâncias
Activar replicada índice

Se o que acima é possível, eu preciso escolher um MapReduce quadro.Desde Cloudera é o fornecedor de suporte e tem uma tonelada de patches não incluído no Hadoop instalar, eu acho que pode ser vale a pena olhar.

Depois de escolher o MatpReduce quadro, o que eu preciso para indexar os documentos (PDF, DOCx, DOC, OLE, etc...), indexá-los, copie o índice para o meu Solr instâncias, e de alguma forma "ativar" para que eles sejam pesquisáveis na instância em execução.Eu acredito que este methodolgy é melhor do que a apresentação de documentos via o RESTO da interface para o Solr.

A razão de eu trazer .LÍQUIDO na imagem, é porque estamos sobretudo um .NET shop.A única Unix / Java temos é Solr e ter um front-end que aproveita o RESTO da interface através de Solrnet.

Com base na sua experiência, como esta arquitetura olhar?Fazer você ver quaisquer problemas/problemas?Que conselhos pode você dá?

O que devo não fazer para perder facetamento de pesquisa?Depois de ler o Nutch documentação, acredito que ele disse que ele não facetamento, mas eu não pode ter o suficiente de fundo neste software para entender o que ele está dizendo.

Solução

Geralmente, o que você descreveu é quase exatamente como o Nutch obras.O Nutch é um rastreamento, indexação, índice de fusão e de consulta atendimento kit de ferramentas com base em Hadoop core.

Você não deve misturar Cloudera, Hadoop, Nutch e Lucene.Você provavelmente vai acabar usando todos eles:

O Nutch é o nome de indexação / atendedor de chamadas (como o Solr) as máquinas.
O Nutch em si é executado usando um Hadoop cluster (que muito utiliza seu próprio sistema de arquivos distribuídos, o HDFS)
O Nutch usa Lucene formato de índices
O Nutch inclui uma consulta de atendimento de frontend, que você pode usar, ou você pode anexar um Solr frontend e usar o Lucene índices de lá.
Finalmente, Cloudera Hadoop Distribuição (ou CDH) é apenas uma distribuição do Hadoop com várias dezenas de patches aplicados a ele, para torná-la mais estável e adaptar alguns recursos úteis de ramos de desenvolvimento.Sim, você provavelmente vai querer usá-lo, a menos que você tenha uma razão para não o fazer (por exemplo, se você quiser uma borda do sangramento Hadoop 0.22 tronco).

Geralmente, se você está apenas olhando para um ready-made de rastreamento / motor de busca de solução e, em seguida, o Nutch é um caminho a percorrer.O Nutch já inclui um monte de plugins para analisar e indexar vários louco tipos de documentos, que incluem documentos do MS Word, PDFs, etc, etc.

Eu, pessoalmente, não vejo muito sentido em usar .NET tecnologias aqui, mas se você se sentir confortável com ele, você pode fazer front-ends in .LÍQUIDA.No entanto, trabalhar com Unix tecnologias pode sentir-se bastante difícil para o Windows centrada em equipe, então se eu tinha gerenciado como um projeto, eu consideradas alternativas, especialmente se a sua tarefa de rastreamento & indexação é limitado (i.e.você não deseja rastrear toda a internet para alguma finalidade).

Outras dicas

Você já se olhou no Lucandra https://github.com/tjake/Lucandra um Cassandra base de back-end para o Lucense/Solr que você pode usar o Hadoop para preencher o Cassandra loja com o índice de seus dados.

Licenciado em: CC-BY-SA com atribuição

Não afiliado a StackOverflow