Metricarts

Columnas

Data Cleansing para Inteligencia de Negocios
Publicado por pcofre
el Martes 10 de Septiembre de 2013
No hay comentarios

Un problema relativamente reciente y que ha tomado fuerza en el último tiempo gracias al aumento en la capacidad de procesamiento es la limpieza de datos, o data cleansing, que consiste en corregir datos incompletos o incorrectamente ingresados. El tener datos inconsistentes y de baja calidad genera información errónea e incompleta produciendo en algunos casos una visión alejada de la realidad, y que para efectos de apoyar al proceso de toma de decisiones, no cumple del todo su cometido. Por ejemplo, si queremos realizar una segmentación estratégica de clientes podríamos obtener grupos diferentes solamente por el hecho de tener una misma ciudad con distintos nombres (p. ej. Santiago y Stgo).

Existen en el mercado herramientas de extracción y transformación de datos que pueden utilizarse para realizar procesos de data cleansing. Es muy importante contar con un set de datos sobre el cual hacer comparaciones y que sirva de referencia a los datos originales. Otra alternativa es realizar agrupaciones de datos similares y comparar sobre estos mismos, bajo el supuesto de que la versión más común es la correcta, por lo que se reemplazan los distintos utilizando el más común de los valores cercanos.

La primera etapa de un proceso de data cleansing por lo general involucra la identificación de los datos incorrectos y un análisis del contenido para preparar las herramientas que darán soporte al proceso de limpieza. Al realizar la comparación entre el dato de entrada y el dato de referencia existen dos indicadores que nos permiten determinar la calidad del match. El primero describe matemáticamente la similaridad entre ambos valores y el segundo, llamado confianza, describe la calidad en función de cuántas alternativas tiene el dato de entrada dentro del set de referencia, por ende, entre menos posibilidades encuentre para realizar un cambio, mayor será la confianza para ese match.

Ajustando las medidas de similaridad y confianza y utilizando herramientas de ETL podemos construir un proceso de data cleansing que ayude a estandarizar automáica y continuamente un set de datos, permitiendo explotarlo de mejor manera, haciendo un uso más eficiente de la información y conocimiento que este pueda proveer.

Artículo escrito por Felipe Zamora. Felipe es ingeniero de Business Intelligence de Metric Arts y sus áreas de interés incluyen los procesos de ETL y la minería de datos.

Deja un comentario

Su correo nunca será publicado o compartido. Los campos obligatorios están marcados *

    *

Dos objetivos: Aumentar Valor y Reducir Riesgo

Related posts

No hay artículos relacionados

Customers