Big Data ¿qué tan grande es?

Hoy en día los seres humanos estamos creando y almacenando información constantemente y el número de datos aumenta en cantidades astronómicas. De acuerdo con científicos del MIT “si todos los bits y bytes de datos del último año fueran guardados en CD's, se generaría una gran torre desde la Tierra hasta la Luna y de regreso”. 

Nos encontramos en un momento en el cual los avances de la tecnología han abierto las puertas hacia un nuevo enfoque de entendimiento y toma de decisiones, ya que al tener cantidades tan grandes de información, resulta imposible procesarla o analizarla utilizando mecanismos convencionales, pues hacerlo implicaría demasiado tiempo y sería muy costoso.

Es en este contexto donde surge el término Big Data, el cual hace referencia a todos los datos publicados de manera dispersa en Internet, la cual puede encontrarse de forma estructurada, no estructurada o semi estructurada y que por sus dimensiones no puede ser procesada o analizada utilizando procesos o herramientas tradicionales. 

Para que te des una idea del tamaño de información del que estamos hablando basta decir que en Twitter se generan cerca de 12 Terabytes provenientes de los tweets creados diariamente y Facebook almacena alrededor de 100 Petabytes de fotos y videos.

¿Y cuánto es esto?

Gigabyte = 109 = 1,000,000,000 bytes
Terabyte = 10
12 = 1,000,000,000,000 bytes
Petabyte = 10
15 = 1,000,000,000,000,000 bytes
Exabyte = 10
18 = 1,000,000,000,000,000,000 bytes

¿Impresionante no?

Podría parecer una cifra exagerada, pero piensa en lo siguiente: esta contribución a la acumulación masiva de datos la podemos encontrar en diversas industrias, por ejemplo compañías que mantienen grandes cantidades de datos transaccionales, reuniendo información acerca de sus clientes, proveedores, operaciones, etc. Lo mismo ocurre con el sector público  ya que en muchos países se administran enormes bases de datos que contienen cifras del censo de población, registros médicos, impuestos, etc., y si a todo esto le añadimos transacciones financieras realizadas en línea o por dispositivos móviles, análisis de redes sociales, ubicación geográfica mediante coordenadas GPS y desde luego los contenidos que generamos desde nuestros smartphones… como ya te habrás dado cuenta, es una historia sin fin, la cual se traduce en que diariamente se generan alrededor de 2.5 quintillones de bytes en el mundo. (1 quintillón = 10 30 = 1,000,000,000,000,000,000,000,000,000,000 bytes)

Pero eso no es todo, de acuerdo con un estudio realizado por Cisco[i], entre el 2011 y el 2016 la cantidad de tráfico de datos móviles crecerá a una tasa anual de 78%, así como el número de dispositivos móviles conectados a Internet excederá el número de habitantes en el planeta.

Las naciones unidas proyectan que la población mundial alcanzará los 7.5 billones para el 2016 de tal modo que habrá cerca de 18.9 billones de dispositivos conectados a la red a escala mundial, esto conllevaría a que el tráfico global de datos móviles alcance 10.8 Exabytes mensuales o 130 Exabytes anuales. Este volumen de tráfico previsto para 2016 equivale a 33 billones de DVDs anuales u 813 cuatrillones de mensajes de texto.

Pero no solamente somos los seres humanos quienes contribuimos a este crecimiento enorme de información, existe también la comunicación denominada máquina a máquina (M2M machine-to-machine) cuyo valor en la creación de grandes cantidades de datos también es muy importante. Sensores digitales instalados en contenedores para determinar la ruta generada durante una entrega de algún paquete y que esta información sea enviada a las compañías de transportación, sensores en medidores eléctricos para determinar el consumo de energía a intervalos regulares para que sea enviada esta información a las compañías del sector energético, solo por mencionar un par de ejemplos. Se estima que hay más de 30 millones de sensores interconectados en distintos sectores como automotriz, transportación, industrial, servicios, comercial, etc. y se espera que este número crezca en un 30% anualmente.

Ahora que ya tienes una idea del tamaño de Big Data, seguramente te estarás preguntando qué se puede hacer con toda esa información y cómo poder acceder a ella sin volverse loco en el intento.

Tener acceso a todos los datos que hay en Internet puede ser una gran herramienta o un enorme dolor de cabeza. Imagina que tienes que buscar información acerca de alguna enfermedad que solamente se ha presentado en África o en los índices de violencia que se registran en un país lejano. Lo más seguro es que alguien ya haya generado ese tipo de información, la pregunta es ¿cómo puedo encontrarla, si nadie la ha integrado y existe solo como datos dispersos?

Una de las necesidades más grandes de esta época es organizar todo el volumen de datos que  que hay en Internet para transformarla en información que responda a una necesidad especifica. De acuerdo con el sitio Dataversity, en un primer intento por alcanzar esta meta se ha buscado la forma de clasificarla en categorías acorde a su naturaleza:

Estructurar todos los datos publicados en Internet para convertirla en información, es una labor que tomará mucho tiempo y esfuerzo. Afortunadamente existen enfoques como la Web Semántica y Linked Data, que buscan dotar de significado a la información que hay en la red y ligar datos para que a la hora que requieras hacer una búsqueda, los resultados que encuentres sean justo lo que necesitas.

A pesar de que el camino es largo, es importante que conozcas algunos casos en los que Big Data ha ayudado a estructurar conceptos e ideas y así poder contar con información clara aplicada en diversos campos:

1.    Popularidad del uso de Facebook: En lugar de tener tablas de información, se decidió crear una imagen ejemplificando los patrones de uso de esta red social.


2.    Huracán Sandy: Esta es una visualización interactiva sobre la zona afectada por el huracán. 

 

Como puedes ver, la naturaleza de la información hoy es diferente a la información en el pasado y la importancia de tener los datos clave es ahora más evidente. El uso de Big Data ha ayudado a los investigadores a descubrir cosas que les podrían haber tomado años en descubrir por si mismos sin el uso de estas herramientas, debido a la velocidad del análisis, es posible que el analista de datos pueda cambiar sus ideas basándose en el resultado obtenido y retrabajar el procedimiento una y otra vez hasta encontrar el verdadero valor al que se está tratando de llegar.


[i] Cisco, Internet será cuatro veces más grande en 2016, Artículo Webhttp://www.cisco.com/web/ES/about/press/2012/2012-05-30-internet-sera-cuatro-veces-mas-grande-en-2016--informe-vini-de-cisco.html

 

por Álea Lozada