Qué es el dirty data y qué pueden hacer las empresas ante este problema

Datos internet
CREATIVE COMMONS
Actualizado: domingo, 22 mayo 2016 11:44

   MADRID, 22 May. (EDIZIONES/Portaltic) -

   Las empresas que se lanzan al 'big data' se enfrentan a un gran enemigo difícil de combatir, y ese no es otro que el 'dirty data'. El término se refiere a datos incorrectos y registros duplicados que, por lo general, conllevan problemas de imprecisión. Es decir, la información que suelen recopilar las compañías pueden ser datos falsos que aportan los usuarios que no quieren facilitar su verdadera identidad. La eliminación completa de esos “datos sucios” es prácticamente imposible y ahí está el gran reto.

Para conseguir buenos resultados con el 'big data' los datos son fundamentales, pero más de la mitad de los consumidores -un 60 por ciento según datos de la firma Verve- ofrecen información falsa cuando las empresas les piden sus datos personales. Pero además, los 'datos sucios' también se pueden generar debido a métodos inadecuados en la gestión y almacenamiento de los propios datos.

¿QUÉ SE CONSIDERA 'DIRTY DATA'?

El 'dirty data' es un problema frecuente en aplicaciones que utilizan bases de datos. Se consideran 'dirty data' los datos incorrectos, duplicados, falsos, engañosos, inexactos, los que violan las reglas de un negocio y los que no tienen un formato generalizado.

¿QUÉ PROBLEMAS OCASIONA?

El resultado son montones de bases de datos de empresas llenas de información falsa que impiden que el 'big data' cumpla su papel, que no es otro que conocer mejor a los consumidores para llegar a ofrecerles productos que realmente puedan interesarles. Con grandes volúmenes de datos precisos y completos, las empresas pueden mejorar su eficiencia, aumentar la productividad y obtener información valiosa para dar esa personalización que prometen.

Hoy en día, los grandes volúmenes de datos juegan un importante papel en los organismos de todo el mundo. Lo que se busca son datos de calidad para obtener más y mejores beneficios, pero como decimos, el gran problema de las empresas es que sus bases de datos están llenas de errores y de valores incompletos. Según el Instituto de Almacenamiento de Datos (TDWI), el 'dirty data'le cuesta a las empresas de EE.UU. cerca de 600.000 millones de dólares cada año.

¿CÓMO ACABAR CON EL 'DIRTY DATA'?

Los equipos de marketing de las empresas necesitan información precisa del cliente para impulsar las ventas, pero los datos de los usuarios que les llegan no son siempre fiables y, por lo tanto, no pueden generar los beneficios que se les piden. ¿Cómo acabar entonces con el 'dirty data?

Limpiar esos 'datos sucios' no es tarea sencilla. Requiere mucho tiempo, recursos y esfuerzo por parte de las empresas. Para depurar los datos es necesario analizarlos meticulosamente, anotando todos los valores incorrectos que se detecten. Dado que los conjuntos de datos son enormes, hacerlo manualmente es casi imposible.

No obstante, actualmente las compañías cuentan con algoritmos diseñados especialmente para solucionar los casos más comunes de recogida de información y errores de los usuarios. Un parche que ayuda en la limpieza de esos datos, pero que no es capaz de solucionar cada error o inexactitud. Si bien es cierto que el número de errores disminuye, hasta el momento las empresasno han conseguido encontrar un solución definitiva a este gran problema.

LA PREVENCIÓN ES IMPORTANTE

Casi siempre suele ser mejor prevenir que curar. Las empresas pueden adoptar medidas para evitar que los usuarios les respondan aportando datos falsos, por ejemplo, estableciendo una relación de confianza con sus clientes. Solo con no llenarles el correo electrónico con 'spam' los consumidores pueden pensarse más el proporcionar información inexacta o falsa.

Hay que tener en cuenta, además, que para los consumidores la privacidad es una cuestión fundamental y el uso que hacen las empresas con sus datos suele preocuparles, de ahí que camuflen o blinden su información. Algo que sigue siendo una cuestión de confianza.

EL GRAN RETO

El gran reto futuro para las empresas es que toda la información que recopilan a diario sea totalmente veraz y correcta. Sin duda, hay un largo camino por recorrer, pero solo entonces las empresas podrán disfrutar de los verdaderos beneficios de los análisis de grandes volúmenes de datos, es decir, del 'big data'.