Perfilamiento de datos – Dataprofiling

Definición

Cuantas veces luego de terminar una proyecto de integración de datos ya sea por alguna iniciativa de Business Intelligence, procesamiento por lotes que se ejecute en la ventana nocturna, aprovisionar a sistemas especializados que requieren de información de otros sistemas, cargar historia para empezar el proceso de sincronización base de datos,   aprovisionar datos a motores de calculo, etc. Nos encontramos que una vez que terminamos el proyecto o durante la fase de pruebas integrales que los datos no están tan integrados como se pensó en el momento de definir las reglas de integración.

Por ejemplo:

“Tenemos un listado de clientes que deben se han afiliado al sistema de No Molestar de INDECOPI, donde solicitan que por ningún motivo puedan ser contactados sin autorización de ellos, dado que algunos pueden ser clientes y otros no, se utiliza como llave de integración el documento de identidad, supongamos que todos tienen el número de DNI.”

El equipo de TI coordino con INDECOPI para suscribirse  y recibir diariamente el listado de personas inscritas en dicho registro.

Luego procedió a hacer un programa que une a los clientes de la entidad con los DNI recibidos del registro de personas que desean no ser molestadas gestionado por INDECOPI, se entiende que las personas que no se encuentran en el listado es por que no se oponen a ser contactados, el programa entra a producción y 10 días después la entidad es multada por contactar a una persona que se encontraba en el registro.

TI revisa el programa y verifica que esta funcionando perfectamente, ¿Cuál es el problema?

Luego de un análisis detecta que el 90% de los datos de la columna DNI de los clientes no son cargados por los responsables de dar de altas en el sistema de facturación, por lo que sistemas realizo estas tareas:

  • Solicitar cambios en los programas de captura de datos para que el DNI sea obligatorio.
  • Solicitar cambios en los programas de captura de datos para que el DNI sea validado con RENIEC a través de su servicio web.
  • Limpiar los datos actuales de la base de datos ya sea buscando en la base de RENIEC por nombre o haciendo verificaciones en la documentación de registro del cliente.

¿Cómo se pudo haber evitado esto?

Haciendo un perfilamiento de datos antes de empezar un proyecto de integración, el cual consiste en obtener estadísticas de los datos, sus patrones, su nivel de confiabilidad, su capacidad de integración.

Estas herramientas permiten hacer el análisis con los datos reales o tomando una muestra significativa y aleatoria.

El Servicio

Nosotros hemos construido nuestra propia herramienta de perfilamiento, por lo que podemos apoyarte en realiza este análisis para proyectos nuevos o para proyectos que se encuentren en producción, finalmente emitimos un informe con las incidencias detectadas y elaboramos un plan de corrección o sugerencias para su mitigación.