Creación de ODS – Operational Data Storage

Definición

Un almacén operacional de los datos (ODS) es un tipo de base de datos que se usa comúnmente como un área lógica provisional para un almacén de datos.

Mientras están en el ODS, los datos pueden ser borrados, arreglados por redundancia y revisados para cumplimiento con las reglas empresariales correspondientes. Un ODS puede ser usado para integrar datos dispares de múltiples fuentes, para que las operaciones, los análisis y los informes empresariales puedan llevarse a cabo mientras se producen operaciones empresariales. Este es el lugar donde la mayoría de los datos, usados en operaciones, son almacenados antes de ser transferidos al almacén de datos para archivarlos a largo plazo.

Un ODS esta diseñado para consultas relativamente simples en pequeñas cantidades de datos (como buscar el estado del pedido de un cliente), en vez de consultas complejas en grandes cantidades de datos, típicos del almacén de datos.

Un ODS es similar a la memoria a corto plazo, con respecto a que solo guarda información reciente; por el contrario, un almacén de datos es más como la memoria a largo plazo porque guarda información permanente.

El servicio

Para implementar una plataforma robusta que soporte un ODS corporativo se requiere de diferentes perfiles y productos de software para atender diferentes necesidades:

  • Modelamiento de Datos
  • Arquitectura de Aplicaciones especializados en ODS
  • Optimización de Base de Datos
  • Mapeo de datos
  • Desarrollo de procesos ETL
  • Creación de mallas de procesos
  • Gestión de calidad de los datos
  • Gestión de incidencias y soporte de ejecución

Modelamiento de Datos

Arson Group cuenta con especialista en diseño de modelos de datos para soporte de un ODS, el mismo que puede ser modelado usando diferentes esquemas:

  • Estrellas
  • Copo de Nieve
  • Constelación de Estrellas
  • Tormenta de nieve
  • Relacional en 3FN, 4FN o 5FN basado en Universal Data Model (UDM)

Arquitectura de Aplicaciones especializados en ODS

También contamos con especialistas en implementación de estrategias de cargas de datos, diseñamos framework de ETL o ELT, sistema de  gestión de incidencias y procesos de mejoras continuas para mejorar la calidad de datos.

Mapeo de datos

Constamos con analistas especializados en realizar análisis de los sistemas fuentes, perfilamiento de los datos, mapeo de la información por cada tabla a poblar respetando las reglas de negocio definidas por el modelador de datos y aplicando reglas de tratamiento ante detección de incidencias en los datos.

Desarrollo de procesos ETL

Desarrollamos utilizando diferentes herramientas de ETL:

Creación de mallas de procesos

Los apoyamos en el diseño de mallas de procesos, identificando la dependencia entre los procesos, ejecutando procesos en paralelo y detección eficiente de inicio de las mallas basada en eventos:

  • Llegada de Archivos.
  • Cambios en los datos de los sistemas fuentes.
  • Creación de tablas.
  • Termino de algún proceso ejecutado anteriormente.

Para la automatización de mallas de procesos recomendamos el uso de:

  • Oracle Data Integrator
  • Bitool WorkLoad
  • Control M
  • JobScheduler (Open Source)

Gestión de calidad de los datos

Muchos de los sistemas de carga de ODS detectan incidencias en los datos como son reglas de nulidad, integridad, consistencia, duplicidad, etc., sin embargo olvidan el diseño de un sistema de gestión de calidad que ayude a mejorar la información cargada.

 Nosotros podemos apoyarlos en definir un plan de gestión de calidad de datos que permita reprocesar la información, reciclar los datos que han sido rechazados, informar el % de confiabilidad de la calidad de los datos, etc.

Nuestra propuesta consiste en  implementar un sistema de gestión de incidencias que por cada tipo de incidencia cree un ticket y este sea asignado a un responsable para buscar una resolución, en caso que este problema se repita en los siguientes días el sistema no debe crear un nuevo ticket sino deberá incrementar el impacto de ocurrencia en el mismo ticket de tal forma que facilite la resolución de la incidencia.

Gestión de metadatas para soporte de ejecución

Cuando se implementa un proyecto de este tipo se terminan usando varias herramientas y en muchos casos de diferentes proveedores, cada uno de ellos genera sus errores y log de ejecución en ambientes diferentes, por ejemplo:

  • Base de Datos: Oracle Database los genera en archivos planos o tablas del sistema en el servidor donde se encuentra la instancia de la base de datos.
  • ETL: Datastage los logs se encuentran en la metadata de producto.
  • Explotador: Oracle BI los logs se encuentra en la metadata de producto.
  • Data Quality: Oracle DI los logs se encuentra en la metadata de producto.

Si bien es cierto que la herramienta encargada de gatillar la malla de procesos se encarga de ejecutar cada uno en forma secuencial o paralela y controla el estado de término de un proceso, evitando ejecutar el segundo proceso si es que el primero no termina satisfactoriamente, cuando se detecta un error dependiendo del producto que lo baya reportado hay que abrir el logs correspondiente, por lo que dificulta la resolución.

Nosotros le proponemos instalar un sistema de gestión de incidencias que ante la caída de un componente capture el logs respectivo y lo adjunte dentro del caso con la finalidad de resolver la incidencia rápidamente, en caso que la incidencia es recurrente re-abre o asocia al caso anterior con la finalidad de tener la historia respectiva.