MADRID, 29 Dic. (EDIZIONES/Portaltic) -
El Big Data es uno de esos conceptos tecnológicos que se oyen o se leen cada vez más, pero no se termina de conocer qué es, mucho menos en profundidad. Esta es la tecnología que hace posible que empresas como Facebook, Google, Amazon o Uber, entre otras tantas, estén donde están, y hay que desmenuzarla para que todos entendamos por qué es la tecnología del momento y cuál es su potencial.
Desarrollar, funcionar, entender o trabajar con grandes volúmenes de datos o conexiones es esencial para que ciertos servicios se mantengan en pie, para que las grandes empresas se sitúen como referentes a nivel mundial. Y no solo eso, sino que todos utilizamos Big Data a diario para casi cualquier cosa que se lleve a cabo a través de Internet, aunque no lo sepamos.
Explicar esta teoría desde la base e ir ahondando en todos los porqués y los cómos que se generan a su alrededor no es fácil. Por eso mismo, en Portaltic hemos contando con la voz del experto en Big Data y ganador del premio al mejor científico de datos en los data Science Awards organizados por Synergic Partners, Antonio Pita, para descubrir el Big Data y todo lo que le rodea.
BASES DEL BIG DATA: QUÉ ES Y QUÉ APLICACIONES TIENE
El Big Data es una forma eficiente de procesar y almacenar masivamente una serie de datos. ¿Qué significa esto? Que es una tecnología que permite guardar grandes volúmenes de información de forma equitativa mientras se procesan de forma paralela, lo que sirve para acortar considerablemente el tiempo necesario en tratar esos miles y miles de datos, además de reducir notablemente el coste que vale guardarlos o utilizarlos.
Este nuevo funcionamiento ha abierto la veda para afrontar problemas que hasta el momento no se podían ni plantear, como la conducción automática y, en general, todo aquello relacionado con la inteligencia artificial y el aprendizaje de las máquinas. “Sus usos y aplicaciones son casi ilimitados, y están transformando muchos sectores en lo que ya se conoce como la cuarta revolución industrial, donde las empresas que gestionan de forma eficiente la información están copando los mercados, desplazando a las compañías tradicionales”, señala Antonio Pita.
Hay muchas técnicas que se pueden utilizar en entornos Big Data, aunque las más habituales se pueden agrupar en cuatro familias, según el objetivo de análisis que tengan: análisis descriptivo, análisis inferencial, análisis predictivo y análisis predictivo. Aunque cada análisis funcione de una manera diferente, ninguno es mejor, sino que han de aplicarse dependiendo del problema concreto que se tenga, de la información y del talento de quien vaya a manejar esos datos.
Nuestro experto deja clara la base fundamental de esta tecnología: “el tamaño de los datos importa, ya que todos los análisis y técnicas que se utilizan obtienen mejores resultados conforme aumenta la información disponible, aunque a partir de un determinado volumen la mejora sea inapreciable. Los factores que realmente influyen en el resultado del análisis son la calidad de los datos y el tratamiento que se haga de ellos”.
El análisis del genoma humano, la conducción autónoma de vehículos como los de Tesla o el hecho de que Amazon o AliExpress puedan vender a tantos millones de clientes en diferentes puntos del mundo se debe al empleo de técnicas de Big Data. Esta tecnología se está utilizando ya en todos los campos inimaginables, especialmente desde la irrupción del Internet de las cosas. De hecho, todos utilizamos Big Data a diario con una simple búsqueda de Google: al introducir la información en el buscador para hacer cualquier consulta, es el Big Data lo que posibilita que aparezca en la pantalla una serie de resultados de forma prácticamente instantánea.
UNA TECNOLOGÍA CON UN ASCENSO IMPARABLE
La andadura pública del Big Data comenzó en 2003 con un artículo publicado por Google en el que se hablaba del desarrollo e implementación de Google File System, un método de funcionamiento y distribución de grandes cantidades de datos para un número elevado de clientes. Desde entonces, su importancia y ascenso han sido algo imposible de parar.
“La madurez en España es reducida. Mientras que algunas empresas del Ibex 35 han declarado abiertamente su focalización en estas tecnologías y están haciendo grandes inversiones para introducirlas en sus organizaciones, otras están comenzando a experimentar con ellas para cuantificar su potencial. Esto se debe a que no hemos tenido la necesidad, ni por volumen ni por competencia, de integrar estas tecnologías en las empresas hasta ahora”, especifica Pita sobre el panorama del país peninsular.
Pese a que trabajar con esta tecnología es idóneo por hacer todo más rápido, por mejorar la eficacia de los sistemas, por reducir costes tecnológicos y por ayudar enormemente al desarrollo del negocio, sí que es importante señalar que es muy complicado introducirlas en los sistemas de grandes compañías “debido a que hay que realizarlo mientras se está en el mercado compitiendo con el resto de empresas. Mientras decidimos sobre el momento adecuado, no nos damos cuenta de que hay otras compañías nuevas, pequeñas, llamadas ‘start-ups’, que directamente ya vienen con todo”.
Una de las claves del Big Data es el almacenamiento de tan alta cantidad de información. Hace años, antes de su gran auge, la única opción para guardar tantos datos era a través de mega-ordenadores, aparatos muy potentes pero también muy caros, por lo que no era una herramienta disponible para todo el mundo, sino solo para las grandes compañías ya asentadas.
Hoy en día, la información se guarda en ordenadores y discos duros a los que tiene acceso cualquier persona: para guardar muchos datos tan solo hay que ir aumentando el número de aparatos que se tienen (concepto de escalabilidad).
“El problema fundamental no es el almacenamiento, sino cómo coordinar estos ordenadores y discos duros para que la información sea accesible, coherente, consistente, íntegra y esté disponible en un periodo corto de tiempo. Esto fue resuelto por Google y su GFS, que después fue replicado y puesto a disposición de todos los usuarios en lo que conocemos como Hadoop”, explica el experto en Big Data.
Entonces, ¿cuál es el kid de la cuestión para que todas las compañías, pequeñas o grandes, puedan almacenar la información y acceder a ella de forma cómoda? Los servicios en la nube, una herramienta a la que puede tener acceso cualquiera y que elimina el gasto de compra de los ordenadores. Una empresa “contrata el servicio que necesita y se adapta a sus necesidades, que incluyen el hardware, el almacenamiento, el software y el procesado de la información, pagando exclusivamente por las capacidades necesarias, reduciendo las inversiones iniciales a realizar”.
SIN BIG DATA, LAS GRANDES EMPRESAS NO SERÍAN REFERENTES MUNDIALES
Antonio Pita afirma de manera rotunda que “sin Big Data, empresas como Facebook, Twitter o Netflix, entre otras, no podrían ser referentes a nivel mundial. Un claro ejemplo es Amazon: antes de 2003 la web experimentaba problemas de sobrecarga en determinadas épocas, como la Navidad. Esto impedía que se planteasen ampliar sus mercados. Internamente desarrollaron un sistema de Big Data para poder gestionar el tráfico de manera eficiente, repartiendo el trabajo entre diferentes ordenadores. Con esto consiguieron que los clientes no tuviesen problemas al realizar sus compras y han incrementado considerablemente todas las ventas realizadas”.
En las empresas punteras que utilizan Big Data han desaparecido las pérdidas de conexión constantes por saturación de la web. Salvo raras ocasiones (derivadas de otras razones), siempre que uno se quiera conectar a Facebook, ver una película en Netflix o comprar algo en Amazon se puede hacer sin ningún problema.
Ahora mismo, es impensable que esas grandes compañías se mantengan como tal sin utilizar Big Data. Es gracias a esta tecnología por la cual los servicios pueden funcionar en todo el mundo, utilizar aprendizaje automático para hacer recomendaciones o sugerencias y permitir que la gente no tenga que estar grandes periodos de tiempo delante del ordenador o ‘smartphone’ para comprar cualquier cosa en las páginas web.
BIG DATA Y LA PRIVACIDAD DE LA INFORMACIÓN
Las empresas, los gobiernos y las instituciones que manejan Big Data como parte de su funcionamiento están muy concienciadas con la privacidad de la información. Para evitar que personas que pertenecen a las organizaciones hagan un uso indebido de los datos existen leyes, como la Ley Orgánica de Protección de datos en el caso de España, que castigan los usos irregulares y establecen cómo deben funcionar los colectivos o empresas a la hora de trabajar con los datos personales de la gente.
“Las organizaciones están desarrollando modelos de gobierno del dato y de seguridad que controlen tanto el acceso a la información como su uso, pero no solo para cumplir con la normativa, sino también para asegurar el uso seguro y correcto de los datos como compromiso con sus clientes. De hecho, se están utilizando tecnologías Big Data para detectar usos indebidos de la información antes de que se produzcan”, explica el experto.
No hay que olvidar que, como toda tecnología, se puede utilizar para hacer el mal y prueba de ello son los continuos ataques de ‘hackers’ que sufren las grandes organizaciones, los cuales están pensados para hacerse con los datos personales de la gente y sacar un beneficio económico de ellos (venta de los mismos, robos en cuentas bancarias, ‘phising’, etc., hay múltiples estafas que se pueden cometer a través de Internet, por ejemplo).
ANTONIO PITA, GANADOR DEL PREMIO A MEJOR DATA SCIENTIST EN ESPAÑA
El interés por el Big Data está aumentando y se están empezando a crear eventos que premian los avances y el interés en este campo. Prueba de ello es el evento Big Data Spain que se celebró el pasado mes de noviembre y que contó con más de 1200 inscripciones. El experto Antonio Pita fue galardonado con el premio al mejor Data Scientist de España gracias a su proyecto Sigefilm.
Sigefilm es un sistema de recomendación de películas que prácticamente funciona en tiempo real, proporcionando al usuario una serie de títulos basados en sus gustos, sus preferencias y la información que esté guardada de las propias películas. La herramienta funciona a través de sistemas de Big Data, ya que la información de las películas es textual, la propia herramienta debía ser escalable (seguir funcionando conforme aumentan los usuarios) y el coste de la arquitectura tiene que ir asociado a los usuarios reales que se tengan en cada momento para no requerir una inversión inicial elevada.
Ganar el premio “es una sensación indescriptible. En los congresos me paran para felicitarme y me están surgiendo muchos proyectos, en particular docentes, con los que disfruto mucho. Lo más importante es que estos premios están ayudando a la difusión tanto de la ciencia de los datos como de los científicos de datos para que las empresas puedan incluirlos en su organización”, nos comenta el premiado.