Datos estructurados vs no estructurados: Gestión de información en BigData

Datos estructurados vs no estructurados
Datos estructurados vs no estructurados

Actualmente en internet son millones y millones de terabytes de información que se crean cada día.  De ahí   que toma mucha importancia el manejo de datos estructurados vs no estructurados, conocerlos y sacar provechos de este cúmulo gigante de información.

Se conoce como datos estructurados, aquella información que se almacena en forma de bases de datos relacionales, generalmente conocidas como bases de datos SQL.

Las bases de datos relacionales están conformadas por tablas, que contienen la información útil, más una serie de valores numéricos únicos que forman llaves, que permiten relacionar unas tablas con otras; como también contienen índices que permiten ordenar la información y hacer más rápidas ciertas consultas.

Mientras que los datos no estructurados, son aquellos que no tienen algún tipo de orden que permita hacer una cateogorización como sí la hace una base de datos sql. En esta categoría podemos encontrar datos en forma de archivos de texto, pdf, word, emails, imágenes, archivos de sonido, chats, tweets, páginas web, etc.

Considerando la relación entre datos estructurados vs no estructurados, en la actualidad hay una mayor proporción de datos no estructurados, conteniendo estadísticas valiosas para diferentes tipos de organizaciones, pero mucho más complicadas de manejar, porque no contienen información relacionada que permita procesarlas de manera rápida y ordenada, así como sí se hace con información proveniente de bases de datos relacionales.

Es ahí donde las herramientas para big data, permiten manejar datos estructurados y no estructurados, por medio de algoritmos especialmente diseñados para gestionar grandes volúmenes de información, también mediante la toma de muestras significativas de esas grandes cantidades de datos, para lograr estadísticas importantes para los negocios.

Entre estos tipos de algoritmos podemos encontrar sistemas que funcionan con redes neuronales o redes bayesianas, por cuanto el manejo de dicha información, requiere de sistemas que puedan “entender” mejor datos de diferentes tipos como imágenes, texto normal, mp3, etc.

También cobra importancia lo que se conoce como la web semántica, donde se hace marcación de las páginas web, para que sea más fácil para los buscadores, reconocer el tipo de datos que manejan este tipo de archivos html. Como por ejemplo marcando productos, aplicaciones de software, geolocalización, idioma, servicios profesionales. Este marcado se maneja mediante un estándar de microdata schema o en forma de arreglos json, o poniendo etiquetas alt a fotos, con lo que es posible reconocer más fácilmente,  el contenido de las páginas web.

En conclusión, es importante para la comunidad  informática, conocer toda la serie de herramientas, algoritmos y metodologías que se usan para el manejo de datos estructurados vs no estructurados, porque ya son millones de datos que se deben analizar y que contienen información muy relevante,  y que puede ser muy útil en forma de estadística para la toma de decisiones, o para la identificación de tendencias, problemas o posibles ocurrencias futuras de eventos.

Este artículo hace parte del sistema de divulgación de conocimiento de FireOS SAS.

Si te gustó este artículo, por favor no olvides compartirlo en las redes sociales. Thnks. 😉

Comentarios

Por favor comenta aquí

Deja un comentario