Experiencia con Hadoop?

https://stackoverflow.com/questions/17721

09-06-2019
|

Pregunta

¿Alguno de ustedes ha tratado de Hadoop?Puede ser utilizado sin el sistema de archivos distribuido que va con ella, en una parte nada arquitectura?Tendría que tener sentido?

Yo también estoy interesado en cualquier de los resultados de rendimiento se han...

Solución

Sí, usted puede utilizar Hadoop en un sistema de ficheros local mediante el uso de URIs en lugar de hdfs Uri en varios lugares.Creo que muchos de los ejemplos que vienen con Hadoop hacer esto.

Este es probablemente muy bien si simplemente quieres aprender Hadoop obras y el mapa básico-reducir el paradigma, pero se necesitan varias máquinas y un sistema de archivos distribuido para obtener los beneficios reales de la escalabilidad inherente a la arquitectura.

Otros consejos

Hadoop MapReduce puede ejecutar encima de cualquier número de sistemas de archivos o incluso más abstracto fuentes de datos, tales como bases de datos.De hecho hay un par de clases incorporadas para no HDFS soporte de sistemas de archivos, tales como S3 y FTP.Usted puede construir fácilmente su propio formato de entrada, así como la ampliación de la básica InputFormat clase.

El uso de HDFS trae ciertas ventajas, sin embargo.El más potente ventaja es que el programador de trabajos MapReduce intentará ejecutar mapas y reduce en la física de las máquinas que se van a almacenar los registros en necesidad de tratamiento.Esto trae una mejora en el rendimiento a medida que los datos se pueden cargar directamente desde el disco local en lugar de transferirse a través de la red, que dependiendo de la conexión puede ser órdenes de magnitud más lento.

Como dijo Joe, de hecho, puede usted utilizar Hadoop sin HDFS.Sin embargo, el rendimiento depende de la capacidad del clúster para hacer computación, cerca de donde se almacenan los datos.El uso de HDFS tiene 2 ventajas principales en mi humilde opinión 1) cálculo se propaga de manera más uniforme en todo el clúster (reducción de la cantidad de comunicación entre nodos) y 2) el grupo como un todo es más resistente al fracaso debido a la falta de disponibilidad de datos.

Si sus datos ya está particionada o trivialmente partitionable, usted puede desear mirar en el suministro de su propia función de partición para el mapa-reducir la tarea.

La mejor manera de envolver su cabeza alrededor de Hadoop es descargarlo y comenzar a explorar los ejemplos.El uso de un cuadro de Linux/VM y su instalación será mucho más fácil que el de Mac o Windows.Una vez que usted se sienta cómodo con las muestras y los conceptos, a continuación, empezar a ver cómo su problema de espacio podría mapa en el marco.

Un par de recursos que pueden resultar útiles para obtener más información sobre Hadoop:

Hadoop Cumbre de Vídeos y Presentaciones

Hadoop:La Guía Definitiva:Montajes Versión - Este es uno de los pocos (¿único?) libros disponibles en Hadoop en este punto.Yo diría que vale la pena el precio de la electrónica, de la opción de descarga, incluso en este punto ( el libro es de ~40% completa ).

Hadoop: The Definitive Guide: Rough Cuts Version

Paralelo/ Distribuido de computación = VELOCIDAD << Hadoop hace que esta realmente muy fácil y barato, ya que puedes utilizar un montón de equipos básicos!!!

A través de los años de almacenamiento en disco que han aumentado las capacidades de forma masiva, pero la velocidad con la que se leen los datos no han seguido.Más datos en un disco, el más lento de la busca.

Hadoop es una ingeniosa variante de la brecha conquistar un enfoque para la resolución de problemas.Básicamente romper el problema en partes más pequeñas y asignar los trozos a diferentes equipos para realizar el procesamiento en paralelo la velocidad de las cosas en lugar de una sobrecarga de la máquina.Cada uno de los procesos de la máquina con su propio subconjunto de los datos y el resultado se combina en la final.Hadoop en un solo nodo no se va a dar la velocidad que importa.

Para ver el beneficio de hadoop, usted debe tener un clúster con al menos 4 - 8 equipos básicos (dependiendo del tamaño de los datos) en el mismo rack.

Usted no necesita ser un super genio paralelo ingeniero de sistemas para tomar ventaja de la computación distribuida.Sólo sé hadoop con Colmena y su buena para ir.

sí, hadoop puede ser muy bien utilizado sin HDFS.HDFS es sólo un defecto de almacenamiento para Hadoop.Puede reemplazar HDFS con cualquier otro medio de almacenamiento como las bases de datos.HadoopDB es un aumento de más de hadoop que utiliza Bases de datos en lugar de HDFS como un origen de datos.Google, se consigue fácilmente.

Si usted está a solo mojarse los pies, empieza por descargar CDH4 & ejecutarlo.Se puede instalar fácilmente en un local de la Máquina Virtual y ejecutar en "pseudo-distribuido de modo" que imita muy bien cómo iba a ejecutar en un verdadero clúster.

Sí, Usted puede Usar el sistema de archivos local el uso de file://, mientras que especificar el archivo de entrada, etc, y esto funciona también con pequeños conjuntos de datos.Pero el poder real de hadoop se basa en la diversificación y el mecanismo de reparto.Pero Hadoop se utiliza para el procesamiento de gran cantidad de datos.Que cantidad de datos que no pueden ser procesados por un solo equipo local o incluso si lo hace va a tomar mucho tiempo para terminar el trabajo.Desde el archivo de entrada está en una ubicación compartida(HDFS) varios miembros de la comunidad pueden leer simultáneamente y reduce el tiempo para terminar el trabajo.En pocas palabras se puede utilizar con el sistema de archivos local, pero para cumplir con el requisito de negocio se debe utilizar con el sistema de archivos compartido.

Gran teórico respuestas anteriores.

A cambio de su hadoop sistema de archivos local, se puede cambiar en "core-site.xml" archivo de configuración como la siguiente para versiones de hadoop 2.x.x.

 <property>
    <name>fs.defaultFS</name>
    <value>file:///</value>
  </property>

para hadoop versiones 1.x.x.

 <property>
    <name>fs.default.name</name>
    <value>file:///</value>
  </property>

Licenciado bajo: CC-BY-SA con atribución

No afiliado a StackOverflow