Metricarts

Columnas

Buenas prácticas en procesos ETL
Publicado por admin_metricarts
el martes 19 de febrero de 2013
6 comentarios

Aunque siempre se habla de procesos de análisis de datos,  búsqueda de patrones y/o encontrar esa tan anhelada pepita de oro dentro de nuestros datos, muchas veces dejamos de lado una labor no menos importante que son los procesos de extracción, transformación y carga de datos o ETL (ETL: Extract,Transform and Load).

En forma general es importante poseer una metodología de trabajo que nos permita la creación de módulos independientes entre sí, con el afán de  modificar pequeñas secciones del código y no realizar modificaciones que podrían alterar otras tareas involucradas, permitiendo un bajo acoplamiento y alto nivel de cohesión.

En la extracción de información de una base de datos transaccional a una analítica se recomienda no sobrecargar al origen de datos con cálculos complejos, esto se logra con la implementación de una base de datos de paso, comúnmente conocida como Stage. En esta base se carga la información tal cual está presente de forma nativa y a su vez en horarios que no implican un gran impacto sobre la organización. También se debe construir metadata (datos descriptivos de los datos extraídos) que permita la trazabilidad del dato, por ejemplo en qué fecha se  efectúo la carga, cuál fue su origen, entre otros; esto entrega la posibilidad de obtener diferencias entre el origen y el destino, con la finalidad de crear las alertas pertinentes.

Durante la transformación de los datos es muy importante la limpieza de los datos, por ejemplo reparando o simplemente ignorando direcciones con bajo nivel de formato o emails inválidos). En esta etapa se debe elegir entre la calidad de la información y la tolerancia al error. A su vez en esta etapa es bastante común el enriquecimiento de los datos, por ejemplo la creación de intervalos de edades entregue mayor información qué la edad como dato en sí mismo, esto da pie para pensar en la creación de segmentaciones y otros modelos analíticos.

Para finalmente realizar la carga de los datos en la base de datos analítica, en este punto no olvidar el cálculo del crecimiento de los datos y si esta es acorde a la capacidad física con la que se cuenta. La capacidad de cómputo es una variable para tener en consideración a la hora de  evaluar nuestro sistema de ETL.

Cabe destacar que la mayoría de las herramientas de ETL utilizadas en estos momentos poseen manejos de errores y excepciones. Esto se vuelve un asunto de vital importancia ya que asegura (o minimiza) una desactualización o pérdida de información, por ejemplo: no borrar información de una tabla si el origen no posee datos, en este caso se puede programar el envío de un correo electrónico alertando de esta situación.

Metric Arts cuenta con experiencia en todas la principales herramientas de ETL, entre ellas Oracle Warehouse Builder, SAP BO (Data Services), Informatica PowerCenter, Microsoft Integration Services, Pentaho Kettle y Jaspersoft ETL, entre otros.

Artículo escrito por Esteban Holtheuer. Esteban es Ingeniero Senior de Metric Arts, experto en soluciones de integración y reportería en plataforma Microsoft. Dentro de sus áreas de expertisse destacan la industria bancaria y Administradora general de fondos.

 

6 comentarios sobre “Buenas prácticas en procesos ETL

  1. Patricio Cofre dice:

    Completamente de acuerdo Esteban, muchas veces por adelantar el proceso estadístico de búsqueda de patrones se deja de lado la realización formal de los procesos de ETL, que es en difinitiva son los que puede darle sustentabilidad a una estrategia analítica, permitiendo realizar extracciones de datos idénticas para seguir alimentando los modelos contruidos.

  2. Jaime Sáez dice:

    Excelente post.

    Siempre se considera que la integración no es trascendental en un proyecto, pero tiende a ser una etapa crucial y compleja.

  3. Fabián Tello dice:

    Muy buen artículo Esteban, el proceso de ETL es fundamental, un mal proceso o no tomarle la dedicación necesaria puede condicionar el proyecto y agregarle dificultades extras en las etapas posteriores. Se debe aprovechar esta etapa para lograr un DW acorde a las necesidades del proyecto.

  4. Juan dice:

    Que opinan que el ETL sea utilizado como orquestador de SHELL???
    Es una buena practica???

  5. pcofre dice:

    Las ETL orquestan scripts de diversos lenguajes. En general se evita pasar por la SHELL, dado que son interfaces de usuario, y la mejora práctica es trabajar al más bajo nivel posible. Ahora, en algunos sistemas legados cerrados, no queda otra alternativa que instanciar la shell y replicar de forma automática el proceso del usuario, y con esto lograr el objetivo deseado.

  6. FullBPI dice:

    […]  “En la extracción de información de una base de datos transaccional a una analítica se recomienda no sobrecargar al origen de datos con cálculos complejos, esto se logra con la implementación de una base de datos de paso, comúnmente conocida como Stage. En esta base se carga la información tal cual está presente de forma nativa y a su vez en horarios que no implican un gran impacto sobre la organización. También se debe construir metadata (datos descriptivos de los datos extraídos) que permita la trazabilidad del dato, por ejemplo en qué fecha se  efectúo la carga, cuál fue su origen, entre otros; esto entrega la posibilidad de obtener diferencias entre el origen y el destino, con la finalidad de crear las alertas pertinentes”, así lo especifica el portal Metricarts. […]

Deja un comentario

Su correo nunca será publicado o compartido. Los campos obligatorios están marcados *

    *

Dos objetivos: Aumentar Valor y Reducir Riesgo

Related posts

No hay artículos relacionados

Customers

Facebook Auto Publish Powered By : XYZScripts.com