Primera parte

Big Data

En la tesis de maestría de Ramos, publicada el año 2015 con el título “Big Data en sectores asegurador y financiero”, se menciona que el progreso de las tecnologías de la información provoca la generación de una gran cantidad de datos a nivel global, de hecho el volumen de los datos generados diariamente es tan grande que las bases de datos actuales se están quedando obsoletas, debido a que, los datos crecen más rápido que la capacidad de las bases de datos para almacenar dicha información. Si las empresas, tanto públicas como privadas, no aprenden a tratar y administrar este tipo de flujo de información dejarán de ser competitivas en los próximos años. Con el tratamiento de estos datos, las empresas podrían tener una visión global del cliente, utilizando datos de fuentes internas. Datos que ya poseen y no están analizados y de fuentes externas, como redes sociales, aplicaciones móviles y datos de geolocalización entre otros. El objetivo principal de este tratamiento y cruce de datos es reducir riesgos. Esto se logra prediciendo el comportamiento y las necesidades del cliente. Gracias a esta ventaja, las empresas podrían desde aplicar microsegmentación con alta precisión a detectar posibilidades de propensión a la fuga del cliente, adelantarse a sus necesidades, conociendo que necesita el cliente antes de que este lo sepa; hasta detectar, identificar y evitar el fraude. En el mercado, se observa hechos y fenómenos que afectan a otros sectores donde se empieza a aprovechar este flujo de datos. Por ejemplo, utilizando Big Data para analizar y cruzar los datos generados por sus usuarios empresas como Amazon que, cruzando datos de compras de sus clientes, han logrado algoritmos de recomendación con los que proveen de ofertas a clientes que han comprado un artículo y se anticipan a sus necesidades posteriores.

La primera vez que se empleó el término Big Data fue el año 1997 en un artículo de dos investigadores de la NASA David Ellsworth y Michael Cox, titulado “Aplicación controlada por la demanda de paginación para la visualización fuera del núcleo”, los cuales indicaban que el ritmo de crecimiento de los datos empezaba a ser un problema para los sistemas informáticos de los que se disponía. Posteriormente, en el año 2001, Douglas Laney publicó un artículo titulado “Gestión de datos 3D: Control del volumen de datos, la velocidad y la variedad”. Este artículo definía lo que actualmente se conoce como las tres V que definen Big Data: Volumen, velocidad y variedad. Asimismo, Big Data no deja de ser un anglicismo que indica datos masivos y que se refiere a la utilización de sistemas informáticos para la acumulación y tratamiento de grandes cantidades de datos y de cómo se revisan y manipulan para identificar distintos tipos de patrones.

Ramos, en la tesis citada, menciona que no obstante y si se pretende entender que significa Big Data, primero es necesario conocer cómo y cuantos datos se generan. Ya que actualmente todo el mundo realiza cualquier cosa desde cualquier lugar, algo que es posible gracias a la tecnología. Esta gran conectividad es una fuente de cantidades ingentes de datos. Cuando se habla de Big Data se está hablando de grandes cantidades de datos. Estos serían: (1) Byte (B) equivale a ocho bits. (2) Kilobyte (KB) corresponde a mil bytes. (3) Megabyte (MB) equivale a mil kilobytes. (4) Gigabyte (GB) corresponde a mil megabytes. (5) Terabyte (TB) equivale a mil gigabytes. (6) Petabyte (PB) corresponde a mil terabytes. (7) Exabyte (EB) equivale a mil petabytes. (8) Zettabyte (ZB) corresponde a mil exabytes. Según la Empresa Domo, en un estudio sobre la cantidad de datos que se generaban en el año 2014 en un minuto en la red por usuarios de social media, se pueden resaltar las siguientes empresas y cantidades asociadas al Big Data: (1) YouTube, los usuarios suben setenta y dos horas de videos nuevos. (2) Email, los usuarios envían doscientos cuatro millones de mensajes. (3) Google, los usuarios envían cuatro millones de consultas de búsqueda. (4) Facebook, los usuarios comparten dos millones cuatrocientos sesenta mil piezas de contenido. (5) Whatsapp, los usuarios comparten trescientos cuarenta y siete mil doscientos veintidós fotos. (6) Twitter, los usuarios envían doscientos setenta y siete mil tuits. (7) Instagram, los usuarios publican doscientas dieciséis mil fotos. (8) Amazon, genera ochenta y tres mil dólares de ventas en línea. (9) Pandora, los usuarios escuchan sesenta y un mil ciento cuarenta y un horas de música. (10) Skype, los usuarios se conectan por veintitrés mil trescientas horas.

Maté, en el artículo publicado el año 2015 titulado “Big data: Un nuevo paradigma de análisis de datos”, complementa mencionando que existen tres grandes bloques o tipos de datos en Big Data, donde es posible realizar la clasificación: (1) Datos estructurados. Corresponde a datos con longitud y formato definidos, como fechas, números o cadenas de caracteres. Se almacena este tipo de datos en tablas. Como ejemplo se tiene una ficha de clientes con: Fecha de nacimiento, nombre, dirección, transacciones en un mes, puntos de compra. (2) Datos semiestructurados. Son datos combinados que no se limitan a campos determinados, pero tienen marcadores para diferenciarse y clasificarse. Se trata de información irregular y son datos que poseen otros datos que se describen entre ellos. Un ejemplo de este tipo de datos son los correos electrónicos, la parte estructuras contiene el destinatario, los receptores y el tema; la parte no estructurada corresponde al texto del mensaje. Otro ejemplo se refiere a los lenguajes de programación de páginas Web o de bases de datos como HTML, XML o JSON. (3) Datos no estructurados. Datos en el formato original en el que fueron recopilados, no se pueden almacenar en tablas ya que no es posible su simplificación a tipos básicos de datos. Ejemplo de datos no estructurados se produce de persona a persona en la comunicación en las redes sociales; de persona a máquina se produce en los dispositivos médicos, el comercio electrónico, las computadoras y los dispositivos móviles; de maquina a máquina se produce en los sensores, dispositivos GPS, cámaras de seguridad. Otro grupo de datos no estructurados son los videos y documentos multimedia, los documentos PDF, contenidos de correos electrónicos, imágenes.