Big Data: ¿Qué es, en qué consiste y dónde se aplica?

Big Data
Big Data

En el mundo de la computación actual es usual escuchar el término Big Data. En este artículo voy a tratar de forma general de este término, qué es, qué información contiene, para qué sirve, y cuál es su importancia.

En la actualidad se generan millones de datos a cada segundo, provenientes de diferentes fuentes, en forma de datos estructurados, no estructurados o semiestructurados. Hay tanta información que en ocasiones no se sabe qué información se debe recolectar para analizar, y si vale la pena el costo de manejarlos en bases de datos relacionales o bajo otros esquemas.

El volumen actual de datos se generan desde multitud de orígenes, como smartphones, sistemas GPS, sensores de temperatura, humedad, eléctricos, presión, médicos, sistemas de facturación, impuestos, historias clínicas, redes sociales, internet, correos electrónicos, datos biométricos, por nombrar algunos de ellos. Es tan grande la cantidad de datos, que para que éstos puedan ser realmente efectivos, se necesita que puedan ser analizados muy rápidamente.

Generalmente se catalogan las fuentes de big data en las siguientes categorías:

  • Web y redes sociales: Twitter, Facebook, Instagram, contenido web, etc.
  • Datos biométricos: Reconocimiento facial, huellas digitales, mapas de ADN, retina, etc.
  • Machine-to-Machine: Lecturas de sensores, RFID, GPS, temperatura, etc.
  • Generados por humanos: Grabaciones de voz de Call Centers, emails, registros médicos, notas de voz, documentos electrónicos, etc.
  • Grandes datos de transacciones: Registros de facturación, ventas, compras, registros detallados de llamadas etc.

En términos de tamaño, en big data se habla en petabytes o exabyte, para darnos una idea de estos términos, miremos sus valores expresados en bytes:

Gigabyte = 109 = 1,000,000,000
Terabyte = 1012 = 1,000,000,000,000
Petabyte = 1015 = 1,000,000,000,000,000
Exabyte = 1018 = 1,000,000,000,000,000,000

El análisis rápido de toda esta cantidad de información, se ha vuelto útil para las compañías para determinar tendencias o comportamiento de clientes, ventas, proveedores, insumos, etc. que en otras circunstancias pasarían desapercibidos.  Así mismo en otras áreas el análisis de grandes cantidades de datos, es de suma importancia para encontrar patrones, como por ejemplo en la gestión de una ciudad, el comportamiento de los signos vitales de una persona, tendencias de compra, etc.

Existen varias plataformas y metodologías para el manejo de big data, a continuación nombraré algunas de ellas:

  • Hadoop (MapReduce) (Descrito en más detalle en el artículo ¿Qué es MapReduce?)
  • Avro
  • Cassandra
  • Chukwa
  • Flume
  • HBase
  • Hive
  • Jaql
  • Lucene
  • Oozie
  • Pig
  • ZooKeeper

Gracias a los avances en las redes de datos, las grandes capacidades de almacenamiento, procesadores más potentes y distribuidos, el análisis y gestión de big data está empezando a cambiar el paradigma de las instituciones en la toma de decisiones; pudiendo tener mejores puntos de vista sobre el comportamiento de cualquier variable, permitiendo que la toma de decisiones pueda ser lo más acertada posible desde el punto de vista estadístico.

Comentarios

Por favor comenta aquí

Deja un comentario