Artículo Tecnología 11 Enero 2016

Dirty data: la gran amenaza para las empresas es la información falsa o caducada

Solo en Estados Unidos, las empresas están perdiendo cada año unos 600.000 millones de dólares por culpa de los datos que están manejando mal.

Por Redacción - 11 Enero 2016

Una de las cuestiones que las empresas tienen ya claro en el mundo en el que se tienen que mover es que la información es una de las armas más poderosas para posicionarse en el mundo de los negocios. Los datos se han convertido en el elemento que permite contar con un elemento de valor destacado, en la llave para comprender al consumidor y para saber qué es lo que quiere y ofrecérselo. Pero lo cierto es que, aunque los datos tienen tanto potencial y las empresas quieren sumarse de forma generalizada y entusiasta al big data, el big data presenta varios problemas que no deben ser olvidados cuando se analiza la estrategia a seguir o la base de la que se va a partir.

Uno de los problemas del big data es la propia condición principal del mismo. Para poder beneficiarse de sus ventajas y para poder extraer todo lo que se puede sacar al big data, es necesario contar con una situación de partida que se ajuste a ciertas características. Las compañías necesitan grandes fuentes de información, necesitar contar con muchísimos datos sobre los consumidores, y esto resulta un serio problema para las empresas de menor tamaño, que no tienen al alcance de la mano una masa de información tan elevada como las de las empresas de gran tamaño. Otro de los problemas es la propia naturaleza de los datos, que muchas veces llegan desestructurados y que son por tanto una fuente de ruido hasta que no se consigue poner orden en ellos. Y otro problema es, por poner otro ejemplo, el saber realmente qué se debe preguntar a la información para lograr tener respuestas relevantes.

Pero estos no son los únicos problemas y los propios consumidores se convierten, en realidad, en una fuente de tensión y no solo en una fuente de información de valor. Los consumidores mienten, sea por las razones que sean, y esas mentiras se acumulan en las bases de datos de las empresas, aunque en realidad no les servirán para nada realmente. A los datos que son mentiras se le pueden sumar los que son medias verdades, los que son irrelevantes o los datos que se han quedado obsoletos, creando un abanico de información del que las empresas disponen que es no solo ruido sino también un palo en la rueda del big data.

Todos estos datos son el que se conoce como "dirty data", un serio problema al que las empresas ya se enfrentaban cuando estaba empezando el boom del big data y cuando aún se estaban viendo las ventajas por encima de todas las cosas. De hecho, tan temprano como en 2007, Gartner ya lanzaba una alerta señalando que más del 25% de la información las empresas del Fortune 1000 iban a acumular en los dos años siguientes entraría dentro de esta categoría, ya fuese porque estaba duplicada, porque era falsa o porque era incompleta o no era real. Las empresas, en definitiva, se iban a enfrentar a una avalancha de información poco veraz.

La situación no fue mucho mejor de lo que la alerta (y un trabajo a tiempo) podría haber hecho pensar. Según un reciente estudio de Integrate, el 40% de los datos que emplean o poseen las empresas B2B es de mala calidad, a pesar de que las previsiones de esas mismas empresas que poseen información poco relevante o poco válida están en dedicar durante 2016 mucho más margen en la estrategia a la información. Es decir, durante el año entrante los datos serán mucho más influyentes dentro de la compañía, aunque la información de partida está claramente "dañada".

Qué hace perder el dirty data

Este uso de datos que son incorrectos y esta realidad en la que las bases de datos de las empresas están llenas de información poco relevante, poco importante o directamente falsa tiene un impacto en las cuentas de negocio de las firmas, que están perdiendo dinero directamente por su culpa. Según una estadística de Invenio, solo en Estados Unidos, las empresas están perdiendo cada año unos 600.000 millones de dólares por culpa de los datos que están manejando mal.

A esto se suma que la información sobre los consumidores es especialmente volátil y cambia de una forma más rápida de lo que las empresas están siendo capaces de ver. Según datos de Strikeiron, se piensa que el 2% de todos los datos que las empresas poseen sobre los consumidores se convierte en obsoleto cada mes, porque las condiciones de vida de los consumidores cambian y con ellas la información que las empresas poseen sobre ellos.

Esta avalancha de cambios y esta modificación en la situación hace no solo que las empresas pierdan dinero por culpa de usar datos caducados sino que obliga también a gastar dinero cambiándolos. Según sus estimaciones, si cuesta 1 dólar conseguir los primeros datos, cuesta unos 10 comprobar que no están duplicados y que son actuales y costará unos 100 si las empresas dejan pasar el tiempo sin modificar lo que tienen en su base de datos.

Cómo prevenir el dirty data

¿Se puede prevenir el dirty data y se pueden por tanto las empresas blindar ante el riesgo de la información incorrecta? De entrada, las compañías tienen que tener claro que todo esto puede pasar y que las cosas no son siempre como los consumidores dicen que son. Los estudios demuestran que todo el mundo miente: de hecho, el 60% de los consumidores da datos falsos cuando se le preguntan datos personales a través de internet.

Las compañías tendrán que ser más eficientes a la hora de analizar qué tienen y a la hora de usar herramientas tecnológicas que funcionen como una policía de los datos. Tienen que emplear soluciones que ayuden a ver cómo encaja la información entre sí y a analizar donde pueden encontrarse los errores.