Apache Hadoop: ¿Qué es, para qué sirve, en qué se usa?

Apache Hadoop es un proyecto de la organizacion Apache, que se encarga de desarrollar un software abierto, confiable y escalable para la computación distribuida.

Apache hadoop
Apache Hadoop

Apache Hadoop es un “framework” (marco de trabajo) que permite procesamiento distribuido de grandes conjuntos de datos, a través de “clusters” (grupos) de computadores, usando modelos simples de programación. Está diseñado para escalar desde pocos servidores a miles de servidores, cada uno ofreciendo su propio almacenamiento y procesamiento local.

La librería Hadoop está diseñada para detectar y manajar fallas en la capa de aplicación, y así entregar un servicio de alta disponibilidad sobre un cluster de computadores, cada uno de los cuales puede estar propenso a fallas.

El proyecto Hadoop consta de los siguientes módulos:

  • Hadoop Common: Son las utilidades comunes que soportan a los demás módulos Hadoop.
  • Hadoop Distribuited File System (HDFS): Es un sistema distribuido de archivos que provee un acceso de alto rendimiento a los datos de la aplicación.
  • Hadoop YARN: Es un framework para programar tareas y gestionar los recursos del cluster.
  • Hadoop MapReduce: Es un sistema basado en YARN para procesamiento en paralelo de grandes conjuntos de datos.

Además de Hadoop, otros proyectos relacionados en los que trabaja Apache son:

  • Ambari: Es una herramienta web para aprovisionar, gestionar y monitorear los clusters Apache Hadoop.
  • Avro: Es un sistema de serialización de datos.
  • Cassandra: Es una base de datos multi-maestro en configuración non-single-failure.
  • Chukwa: Es un sistema de recolección de datos para gestionar grandes sistemas distribuidos.
  • HBase: Es una base de datos escalable y distribuida, que soporte almacenamiento de datos estructurados para tablas grandes.
  • Hive: Es una infraestructura data-warehouse que provee resumen de datos y consultas ad-hoc.
  • Mohout: Es una librería escalable de aprendizaje de máquina y de minería de datos.
  • Pig: Es un framework para procesamiento en paralelo, con un lenguaje de alto nivel de flujo de datos.
  • Spark: Es un motor de computo rápido y general para los datos Hadoop. Provee un modelo de programación simpre y expresivo que soporta un amplio rango de aplicaciones, incluyendo ETL, aprendizaje de máquina, flujos de procesos y computación gráfica.
  • Tez: Es un framework de programación de flujo de datos, construido sobre Hadoop YARN.
  • ZooKeeper: Es un serivicio de coordinación de alto rendimiento para aplicaciones distrubuidas.

Apache Hadoop es una herramienta muy potente y al alcance de cualquiera para iniciarse en el mundo del manejo de big data, y el procesamiento en paralelo de grandes cantidades de información.

Este artículo hace parte del servicio de divulgación de conomimiento de FireOS SAS.


FireOS SAS Desarrollo de Software
FireOS SAS Desarrollo de Aplicaciones

FireOS SAS es una empresa dedicada a innovar en el desarrollo de aplicaciones web y móviles, destinadas a mejorar el desempeño de los procesos de las empresas.

Te apoyamos para construir las soluciones que necesitas para tu negocio actual o tu emprendimiento. Ven y consúltanos en www.fireosoft.com.co.


Si te gustó, por favor no te olvides de compartirlo en las redes sociales. 😉

Comentarios

Por favor comenta aquí

Deja un comentario