Hadoop per creare un indice e add () per SOLR distribuito ... è possibile? Dovrei usare Nutch? ..Cloudera?

StackOverflow https://stackoverflow.com/questions/4235892

Domanda

Posso utilizzare un framework MapReduce per creare un indice e in qualche modo aggiungerlo a un distribuita Solr?

Ho una raffica di dati (file di log e documenti) che saranno trasportati su Internet e conservato nel mio datacenter (o Amazon). Ha bisogno di essere analizzato, indicizzato, e, infine, ricercabili per la nostra installazione Solr replicato.

Ecco la mia architettura proposta:

  • Utilizzare un quadro MapReduce (Cloudera, Hadoop, Nutch, anche DryadLinq ) per preparare i documenti per l'indicizzazione
  • Indice tali documenti in un Lucene.NET / Lucene (java) formato file compatibile
  • Distribuire il file a tutti i miei casi Solr
  • Attiva che indice replicato

Se quello sopra è possibile, ho bisogno di scegliere un quadro MapReduce. Dal momento che Cloudera è fornitore sostenuto e ha una tonnellata di patch non incluso nel Hadoop installare, penso che potrebbe essere la pena di guardare.

Una volta che scelgo il quadro MatpReduce, ho bisogno di tokenize i documenti (PDF, DOCX, DOC, OLE, ecc ...), indicizzarli, copio l'indice per le mie istanze Solr, e in qualche modo "Attiva" loro in modo da sono ricercabili nella istanza in esecuzione. Credo che questo Metodologie è meglio che la presentazione dei documenti tramite l'interfaccia REST per Solr.

Il motivo per cui portare .NET in scena è perché siamo per lo più un negozio di .NET. L'unica Unix / Java avremo è Solr e hanno un front-end che sfrutta l'interfaccia REST tramite Solrnet.

  

In base alla vostra esperienza, come si fa   questa architettura sguardo? Vedi   eventuali problemi / problemi? Che consiglio può   si dà?

Cosa devo non fare per perdere sfaccettatura ricerca? Dopo aver letto la documentazione Nutch, credo che ha detto che non fa sfaccettatura, ma non posso avere abbastanza esperienza in questo software di capire quello che sta dicendo.

È stato utile?

Soluzione

In generale, è quello che hai descritto è quasi esattamente come funziona Nutch. Nutch è una scansione, indicizzazione, fusione indice e interrogazione rispondere toolkit che si basa sul core Hadoop.

Non si dovrebbe mescolare Cloudera, Hadoop, Nutch e Lucene. Avrete probabilmente finisce per utilizzare tutti loro:

  • Nutch è il nome di indicizzazione / segreteria (come Solr) macchinari.
  • Nutch si gestisce utilizzando un Hadoop del cluster (che utilizza pesantemente il proprio file system distribuito, HDFS)
  • usi Nutch Lucene Formato di indici
  • Nutch include un frontend rispondere query, che è possibile utilizzare, oppure è possibile collegare un Solr frontend e utilizzare gli indici Lucene da lì.
  • Infine, Cloudera Hadoop distribuzione (o CDH) è solo una distribuzione Hadoop con diverse decine di patch applicata ad esso, per rendere più stabile e backport alcune caratteristiche utili dai rami di sviluppo. Sì, faresti molto probabilmente si desidera utilizzarlo, se non avete un motivo per non (ad esempio, se si desidera un bordo sanguinamento Hadoop 0,22 tronco).

In generale, se si sta solo cercando una soluzione motore di crawling / ricerca di ready-made, quindi Nutch è un modo per andare. Nutch include già un sacco di plugin per analizzare e indicizzare i diversi tipi di documenti folli, includono documenti MS Word, PDF, ecc, ecc.

Io personalmente non vedo molto senso utilizzando tecnologie .NET qui, ma se si sente bene con esso, si può fare front-end in .NET. Tuttavia, lavorando con le tecnologie Unix potrebbe sentire abbastanza imbarazzante per team di Windows-centric, quindi se ero riuscito un progetto del genere, avevo considerato alternative, soprattutto se il vostro compito di strisciare e l'indicizzazione è limitata (cioè non si vuole strisciare l'intera internet per qualche scopo).

Altri suggerimenti

Hai guardato Lucandra https://github.com/tjake/Lucandra un back basato Cassandra end per Lucense / Solr che si può usare Hadoop per popolare il negozio Cassandra con l'indice dei dati.

Autorizzato sotto: CC-BY-SA insieme a attribuzione
Non affiliato a StackOverflow
scroll top