En esta fase se debe detectar preventivamente los problemas de calidad de datos existentes para poder actuar antes de comenzar a transformar.
No existen estandarizaciones para la Calidad de datos (Data Quality). Calidad de datos es la cualidad de un conjunto de información recogida en una base de datos, un sistema de información que reúne entre sus atributos los siguientes:
Exactitud
Complejidad
Integridad
Actualización
Coherencia
Relevancia
Accesibilidad
Confiabilidad
DATOS OSCUROS
Existe un fenómeno que está asustando en todas partes: los datos oscuros o dark data. Si bien no es un fenómeno completamente nuevo (los datos oscuros han existido desde el comienzo de la era de los grandes datos), es por eso que comprender y manejar adecuadamente los datos oscuros podría ser una parte importante de cualquier estrategia de negocio. Están conformados en su mayoría por:
Archivos multimedia.
Hojas de cálculo.
Información de los clientes.
Archivos de registro del servidor.
Registros detallados de llamadas de los clientes.
Notas o presentaciones.
Datos de la plantilla.
DATOS SUCIOS
En el ámbito de sistemas automatizados, los datos sucios pueden causar a la organización un daño real, al obligarla a incurrir en un costo económico real causado por las acciones automáticas que dan inicio con datos que no son válidos. ejemplo, un cambio de domicilio de un cliente.
DATOS NO ESTRUCTURADOS
Son de relativa importancia sobre todo dentro de sistemas relacionales donde todos los datos deben ser estructurados. Reciben menos importancia en sistemas NoSQL que tienen capacidad de recibir datos más heterogéneos. En la mayoría de casos, los datos están disponibles, pero no están preparados para su uso. Deben ser enriquecidos de alguna manera para poder considerarse compatibles con el sistema que los va a consumir. Si no se hace, los problemas de calidad empezarán a aparecer. Están conformados en su mayoría por:
Correos electrónicos.
Archivos de procesador de texto.
Archivos PDF.
Hojas de cálculo.
Imágenes digitales.
Vídeo.
Audio.
Publicaciones en medios sociales.
DATOS NULOS Y ATIPICOS
Los datos nulos son datos que faltan, se suele decir que si una variable tiene muchos nulos lo mejor que puedes hacer es descartarla. No estoy de acuerdo con eso, porque en entornos reales esa variable puede tener muchos nulos porque así es el negocio y eso no representa un problema de calidad de datos, si no de falta de conocimiento del negocio. Un ejemplo de un dato atípico «cliente con 102 años» no es lo normal, pero podría existir. Por eso en esta fase hay que separar muy bien lo que son nulos y atípicos de lo que son problema de calidad de datos.
DATOS ESTADISTICOS
Cosas como mínimos, máximos, rango, media, mediana, etc nos dan muchísima información y de forma muy rápida. Sólo hay que aplicar un poco de sentido común y de conocimiento de negocio. Por ejemplo, ¿empleados con datos negativos en la edad?
DAROS COHERENTES
Consiste en seleccionar desde el conocimiento de negocio aquellas variables que deberían ser coherentes entre sí y cruzarlas para ver los resultados. Por ejemplo la variable importe total de compras del cliente debería ser coherente con la variable número de productos comprados, en el sentido de que si por ejemplo en la de importe figuran 125€ comprados a un proveedor no podría pasar que en la de productos comprados a un proveedor sea 0.
INDICADORES DE CALIDAD
Factores para determinar si una información es de calidad o no. ¿Cuáles son las dimensiones de calidad de los datos? Básicamente podrían resumirse en seis:
Datos completos: los datos recabados deben estar completos. La ausencia de valor en ciertos procesos de negocio puede marcar la diferencia entre el éxito o el fracaso de un proyecto.
Datos accesibles: la legibilidad de los datos de la base de datos (BBDD) debe seguir un modelo estándar y accesible.
Datos veraces: para hacer predicciones, se efectúan cruces de datos. Es imprescindible eliminar la información contradictoria que pueda dar lugar a error.
Datos exactos: en los proyectos de medición y extracción de valor de los datos, la información debe ser precisa. Para ello, hay que tener un modelo de referencia que permita visualizar con gran porcentaje de acierto, dónde está el error. Para esto, son realmente interesantes los dashboards, ya que permiten al usuario, de forma muy visual, analizar la información propuesta.
Datos únicos: la información duplicada dentro de una misma base de datos puede dar lugar a conclusiones sesgadas. Otra labor a la hora de extraer el valor de los datos es eliminar todos los datos duplicados.
Datos íntegros: corresponde a la correctitud y completitud de la información en una base de datos (BBDD).
En el proceso de Data Quality, es preciso realizar informes de calidad frecuentes. Con un reporte bien elaborado es posible identificar patrones de calidad de datos, registrar todas las fases que afectan a la calidad de los mismos.
Leave a Reply