Hadoop Чтобы создать индекс и добавить () его распределить Solr ... это возможно? Я должен использовать Щетка? .....

https://stackoverflow.com/questions/4235892

26-09-2019
|

Вопрос

Могу ли я использовать каркас для MapReduce для создания индекса и как-то добавить его в распределенный SOLR?

У меня есть всплеск информации (логики и документы), которые будут транспортироваться через Интернет и храниться в моем DataCenter (или Amazon). Он должен быть проанализирован, проиндексирован и, наконец, именно для поиска нашей реплицированной установки Solr.

Вот моя предложенная архитектура:

Используйте карта Mapreatuce (Cloudera, Hadoop, Zch, даже Drimadlinq.) подготовить эти документы для индексации
Индекс эти документы в формат файла mucene.net / lucene (Java)
Развертывание этого файла во всех случаях моих Solr
Активировать этот реплицированный индекс

Если это вышеуказанное, мне нужно выбрать каркасную каркас. Поскольку Cloudera является поддержанным поставщиком и имеет тонну патчей, не включенных в установку Hadoop, я думаю, что это возможно, стоит смотреть.

После того, как я выбираю каркас MatPreduce, мне нужно токизировать документы (PDF, DOCX, DOC, OLE, ETC ...), индексируйте их, скопируйте индекс в свои экземпляры Solr, и как-то «активировать» их, чтобы они были доступны для поиска в бегущий экземпляр. Я считаю, что эта методология лучше, что подача документов через интерфейс отдыха на Solr.

Причина, по которой я приношу .NET на картинку, потому что мы в основном .NET Shop. Единственным UNIX / Java у нас будет SOLR и иметь передний конец, который использует интерфейс отдыха через SolRnet.

Исходя из вашего опыта, как эта архитектура выглядит? Вы видите какие-либо проблемы / проблемы? Какой совет вы можете дать?

Что я должен нет сделать, чтобы потерять аккумуляторные поиски? Прочитав документацию Щетки, я считаю, что это сказано, что он не делает границ, но у меня не может быть достаточно фона в этом программном обеспечении, чтобы понять, что он говорит.

Решение

Вообще, вы, что вы описали, почти точно работает Nutch. Щетка - это ползание, индексирование, индексное объединение и запрос, отвечающий на инструментарий, который основан на ядре Hadoop.

Вы не должны смешивать крюку, Hadoop, Zchch и Lucene. Скорее всего, вы получите все их:

Щетка это название индексации / автоответчика (как Solr).
Щетка сама работает с помощью Гадость кластер (который сильно использует свою собственную распределенную файловую систему, HDFS)
Щетка использует Лучеина Формат индексов
Щетка включает в себя запрос, отвечающий на интерфейс, который вы можете использовать, или вы можете прикрепить Соревнования Frontend и используйте индексы Lucene оттуда.
Ну наконец то, Cloudera Hadoop Распределение (или CDH) - это просто распределение Hadoop с несколькими десятками патчей, применяемых к нему, чтобы сделать его более стабильным и взыскать некоторые полезные функции от филиалов разработки. Да, вы, скорее всего, хотите использовать его, если у вас нет причины не (например, если вы хотите кровотечение кромки Hadoop 0,22 багажника).

Вообще, если вы просто смотрите в готовую ползающую / поисковую систему, то Щема - это способ пойти. Щетка уже включает в себя много плагинов в разбор и индексировать различные сумасшедшие типы документов, включают документы MS Word, PDFS и т. Д.

Я лично не вижу много точек использования .NET Technologies здесь, но если вы чувствуете себя комфортно с ним, вы можете делать передние заканчиваться в .NET. Однако, работа с технологиями Unix может чувствовать себя довольно неловко для команды, ориентированной на Windows, поэтому, если бы мне удалось такого проекта, я бы рассмотрел альтернативы, особенно если ваша задача ползания и индексации ограничена (то есть вы не хотите ползать весь интернет для какой-то цели).

Другие советы

Вы смотрели на Лукандру https://github.com/tjake/lucandra. Задняя часть на основе кассандры для Lucense / Solr, которую вы можете использовать Hadoop, чтобы заполнить магазин кассандра с индексом ваших данных.

Лицензировано под: CC-BY-SA с атрибуция

Не связан с StackOverflow