Usamos cookies y otras tecnologias similares (Cookies) para mejorar su experiencia y proporcionarle contenido y anuncios relevantes para usted. Al utilizar nuestro sitio web, acepta el uso de Cookies. Puede cambiar su configuracion en cualquier momento. Politica de cookies.


Data Quality: un vistazo a las soluciones Open Source existentes

Originally published marzo 9, 2009

Un problema clásico no sólo en el ámbito del análisis de información sino en el propio contexto transaccional es la calidad de datos. Desde el primer momento en que tenemos información crucial para nuestra organización, poder confiar en ella debe ser una de las principales prioridades. ¿Porqué uno de preguntará? Pensemos en un momento,

  • si la información geográfica de nuestras ventas está incompleta, ¿podemos saber en qué zonas hemos vendido más y en las de menos?
  • si la información de nuestro stock es incorrecta, ¿podremos gestionar correctamente qué necesidades que tienen nuestros puntos de venta?
  • si la información de cliente no es fidedigna, ¿podremos ponernos en contacto con ellos para ofrecerles nuevos producto?
  •  …
¿Qué podemos hacer? Crear, aplicar y mantener una política de Data Quality para detectar, corregir y monitorizar la calidad de los datos.

Quizá sea conveniente antes definir los conceptos para poder hablar con propiedad:
  • Data Quality: se define como los procesos y tecnologías que permiten asegurar la conformidad, en términos de calidad, de los datos a las necesidades de negocio bajo unos criterios establecidos.
  • Data Profiling: es el proceso de examinar los datos que existen en las fuentes de origen de una organización y recopilar estadísticas e información sobre los mismos. El propósito de dichas estadísticas es:
  • Determinar qué datos pueden ser usados para otros propósitos.
  • Conseguir métricas de calidad de datos que incluyen si los datos cumplen los estándares de la organización.
  • Reducir el riesgo de integrar información a nuevas aplicaciones dado que conocemos su estado.
  • Permite hacer un seguimiento de la calidad de datos.
  • Otorga la capacidad de entender problemas derivados de los datos en proyectos que hagan uso intensivo de los mismos.
  • Tener una visión global de los datos de la organización para desplegar políticas de Data Governance.
  • Data Cleansing: es el proceso de detectar o descubrir y corregir datos corruptos, incoherentes o erróneos de un conjunto de datos. Después del proceso, la información será consistente con otros conjuntos similares de datos.  La validación de datos puede ser estricta o mediante el uso de fuzzy logic. Este proceso permite detectar entradas duplicadas, incompletas,… y establecer reglas para corregirlas  (para aplicarlas). El objetivo no es borrar información perse sino mejorar la calidad de los datos construyendo un proceso de mejora continua.
  • Data Auditing: es el proceso de gestionar cómo los datos se ajustan a los propósitos definidos por la organización. Se establecen políticas para gestionar los criterios de datos para la organización. Es bien sabido que no es suficiente con actuar sino que se debe vigilar.
¿Qué soluciones ofrece el mercado Open source? Esta es una de las áreas de que está en fase de maduración del sector. Ello significa que no todas las soluciones que presentamos cubren todas las necesidades en el ámbito de Data Quality.

  •  Power MatchMaker: esta herramienta, que pertenece a la empresa canadiense SQL Power y que actualmente se halla en la versión 0.8.3, permite aplicar técnicas de data cleansing. Entre sus funcionalidades incluye
  • Detectar y validar direcciones.
  • Identificar y borrar duplicados.
  • Cruzar referencias.

Esta desarrollada en Java y es multiplataforma (Windows, Linux, Mac OS).
 
alt

  •  Talend Open Profiler: esta solución, que pertenece a la empresa francesa Talend y que se halla actualmente en la versión 1.1.4, es una herramienta que permite aplicar técnicas de Data Profiling. Esta herramienta, también esta desarrollada en Java pero a través del IDE Eclipse. Se complementa con la solución de integración de datos: Talend Open Studio, solución de integración de datos, con la que pueden desarrollarse pasos para mejorar la calidad de datos y se que incluyen por defecto en las versiones Team, Professional y Enterprise (no open source estas últimas).
Incluye por defecto herramientas para determinar la calidad de nuestros datos mediante indicadores y proporcionar gráficos recopilando la información obtenida.

 alt

  •  Data Cleaner: a diferencia de las demás, esta solución está orientada a preparar los datos para cualquier proyecto en el que se deban aplicar técnicas de Data Quality. Se halla en la versión 1.4 (aunque existe una beta de la 1.5) y es también multiplataforma dado que está desarrollada en Java. Incluye múltiples funcionalidades:
  • Profiler: para determinar la calidad de los datos.
  • Validator: para validar datos contra reglas que deben verificarse bajos la política de calidad establecida.
  • Comparator: para comparar la información de diferentes fuentes de origen.
  • Monitor: para establecer un seguimiento de la calidad de los datos.
  • Dictionary: permite crear un repositorio de datos maestros y correctos contra los que validar nuestros datos.
 
alt
  •  Pentaho Data Integration: esta herramienta ETL, que pertenece a Pentaho y se encuentra en su versión 3.1, está evolucionando como solución completa de integración  de datos. Es multiplataforma y escrita en java. Si bien inicialmente está destinada a ser una herramienta para gestionar un Data Warehouse,  incluye pasos que permite aplicar pasos de Data Cleansing y así mismo, en su última versión, encontramos pasos para la validación de datos. Por ejemplo, validar la tipología de los datos, valores nulos,… incluso para validar una tarjeta de crédito.
 
Ya no tenemos excusa para no tener en cuenta la calidad de datos en nuestra empresa y aplicar las técnicas adecuadas.


  • Josep Curto DíazJosep Curto Díaz
    Josep Curto es Area Manager en ICNET Consulting. Está focalizado en la implantación de Sistemas Business Intelligence, incidiendo en ofrecer la solución adecuada a las necesidades de sus clientes, con especial atención a las del emergente mercado Business Intelligence Open Source. Es Master en Business Intelligence y Master en Dirección y Gestión en Sistemas y Tecnologías de la Información por la UOC y licenciado en Matemáticas. Ha conjugado su carrera profesional con una clara vocación por educación superior siendo profesor en la Universidad Autónoma de Barcelona (UAB) y en la Universitat Oberta de Catalunya (UOC). Autor del blog Information Management. Es colaborador esporádico en la revista Gestión del Rendimiento. Josep puede ser contactado mediante Josep.curto@icnetconsulting.com.

Recent articles by Josep Curto Díaz


Related Stories


 

Comments

Want to post a comment? Login or become a member today!

Posted marzo 12, 2009 by Josep Curto

A Carlos:

Gracias. La verdad es que, poco a poco, Data Quality también es un aspecto que empiezan a cubrir las soluciones Open Source existentes. Denota un grado de madurez de las mismas incorporar dichas técnicas.

A Dario: Gracias.

Un saludo a todos.

Is this comment inappropriate? Click here to flag this comment.

Posted marzo 11, 2009 by Dario Bernabeu

Excelente artículo Josep!

Saludos.

Is this comment inappropriate? Click here to flag this comment.

Posted marzo 10, 2009 by Carlos Fernandez

Josep, me alegro que hayas escogido este tema para tu artículo. No se habla mucho de Data Quality, y menos en el mundo open source.

En Dataprix realicé hace un tiempo un análisis sobre el funcionamiento de Power*MatchMaker (http://www.dataprix.com/datacleansing-con-powermatchmaker), por si alguien quiere profundizar algo más.

Me apunto como tarea pendiente analizar Talend Open Profiler y DataCleaner. Sobre Pentaho Data Integration me esperaré a que incluya más funcionalidades de Datacleansing ;)

Is this comment inappropriate? Click here to flag this comment.