Implementación de datawarehouse corporativos

Descripción

Un datawarehouse corporativo contiene la información centralizada de todos los sistemas de información de la empresa, incluyendo datos que provienen de entidades externas o de fuentes no almacenadas en bases de datos, cuyo objetivo es brindar información acertada y precisa a los sistemas de información gerencial.

La información almacenada en este repositorio cumple con las siguientes características:

  • Integrado: Los datos almacenados en el datawarehouse corporativos deben integrarse en una estructura normalizada y  consistente, por lo que debe pasar por un proceso de limpieza donde se detecten las diferentes inconsistencias existentes entre los diversos sistemas operacionales y ser corregidas (Ya sea por procesos manuales de limpieza de datos o por proceso de corrección automática). La información suele estructurarse también en distintos niveles de detalle para adecuarse a las distintas necesidades de los .
  • Temático: El datawarehouse corporativo debe estar orientado a atender temas de importancia para el negocio, por lo que se debe concentrar en integran desde el entorno operacional los datos necesarios para el apoyo a los sistemas de toma de decisiones. Los datos se organizan por temas para facilitar su y entendimiento por parte de los usuarios finales.
  • Histórico: El tiempo es parte implícita de la información contenida en un datawarehouse. En los sistemas operacionales, los datos siempre reflejan el estado de la actividad del negocio en el momento presente. Por el contrario, la información almacenada en el datawarehouse sirve, entre otras cosas, para realizar análisis de . Por lo tanto, el datawarehouse se carga con los distintos valores que toma una variable en el tiempo para permitir comparaciones.
  • No volátil: El almacén de información de un datawarehouse existe para ser leído, pero no modificado. La información es por tanto permanente, significando la actualización del datawarehouse la incorporación de los últimos valores que tomaron las distintas variables contenidas en él sin ningún tipo de acción sobre lo que ya existía, a pesar que los sistemas pueden actualizar información, el datawarehouse corporativo guarda la historia de los cambios de ciertos atributos de cada entidad, por ejemplo:  Estado civil del cliente, Lugar de Residencia, etc.

El servicio

Para implementar una plataforma robusta que soporte un datawarehouse corporativo se requiere de diferentes perfiles y productos de software para atender diferentes necesidades:

  • Modelamiento de Datos
  • Arquitectura de Aplicaciones especializados en DW/BI
  • Optimización de Base de Datos
  • Mapeo de datos
  • Desarrollo de procesos ETL
  • Creación de mallas de procesos
  • Gestión de calidad de los datos
  • Gestión de incidencias y soporte de ejecución

Modelamiento de Datos

Arson Group cuenta con especialista en diseño de modelos de datos para soporte de un datawarehouse corporativo, el mismo que puede ser modelado usando diferentes esquemas:

  • Estrellas
  • Copo de Nieve
  • Constelación de Estrellas
  • Tormenta de nieve
  • Relacional en 3FN, 4FN o 5FN basado en Universal Data Model (UDM)

Arquitectura de Aplicaciones especializados en DW/BI

También contamos con especialistas en implementación de estrategias de cargas de datos, diseñamos framework de ETL o ELT, sistema de  gestión de incidencias y procesos de mejoras continuas para mejorar la calidad de datos.

Mapeo de datos

Constamos con analistas especializados en realizar análisis de los sistemas fuentes, perfilamiento de los datos, mapeo de la información por cada tabla a poblar respetando las reglas de negocio definidas por el modelador de datos y aplicando reglas de tratamiento ante detección de incidencias en los datos.

Desarrollo de procesos ETL

Desarrollamos utilizando diferentes herramientas de ETL:

Creación de mallas de procesos

Los apoyamos en el diseño de mallas de procesos, identificando la dependencia entre los procesos, ejecutando procesos en paralelo y detección eficiente de inicio de las mallas basada en eventos:

  • Llegada de Archivos.
  • Cambios en los datos de los sistemas fuentes.
  • Creación de tablas.
  • Termino de algún proceso ejecutado anteriormente.

Para la automatización de mallas de procesos recomendamos el uso de:

  • Oracle Data Integrator
  • Bitool WorkLoad
  • Control M
  • JobScheduler (Open Source)

Gestión de calidad de los datos

Muchos de los sistemas de carga de datawarehouse detectan incidencias en los datos como son reglas de nulidad, integridad, consistencia, duplicidad, etc., sin embargo olvidan el diseño de un sistema de gestión de calidad que ayude a mejorar la información cargada.

 Nosotros podemos apoyarlos en definir un plan de gestión de calidad de datos que permita reprocesar la información, reciclar los datos que han sido rechazados, informar el % de confiabilidad de la calidad de los datos, etc.

Nuestra propuesta consiste en  implementar un sistema de gestión de incidencias que por cada tipo de incidencia cree un ticket y este sea asignado a un responsable para buscar una resolución, en caso que este problema se repita en los siguientes días el sistema no debe crear un nuevo ticket sino deberá incrementar el impacto de ocurrencia en el mismo ticket de tal forma que facilite la resolución de la incidencia.

Gestión de metadatas para soporte de ejecución

Cuando se implementa un proyecto de este tipo se terminan usando varias herramientas y en muchos casos de diferentes proveedores, cada uno de ellos genera sus errores y log de ejecución en ambientes diferentes, por ejemplo:

  • Base de Datos: Oracle Database los genera en archivos planos o tablas del sistema en el servidor donde se encuentra la instancia de la base de datos.
  • ETL: Datastage los logs se encuentran en la metadata de producto.
  • Explotador: Oracle BI los logs se encuentra en la metadata de producto.
  • Data Quality: Oracle DI los logs se encuentra en la metadata de producto.

Si bien es cierto que la herramienta encargada de gatillar la malla de procesos se encarga de ejecutar cada uno en forma secuencial o paralela y controla el estado de término de un proceso, evitando ejecutar el segundo proceso si es que el primero no termina satisfactoriamente, cuando se detecta un error dependiendo del producto que lo baya reportado hay que abrir el logs correspondiente, por lo que dificulta la resolución.

Nosotros le proponemos instalar un sistema de gestión de incidencias que ante la caída de un componente capture el logs respectivo y lo adjunte dentro del caso con la finalidad de resolver la incidencia rápidamente, en caso que la incidencia es recurrente re-abre o asocia al caso anterior con la finalidad de tener la historia respectiva.