¿Qué son los metadatos?
En términos simples, los metadatos son datos sobre datos. Describen todos los aspectos relevantes de la plataforma de datos de una organización, unen sistemas y dominios, y son cruciales para proporcionar conocimientos, controlabilidad y eficiencia. Los metadatos hacen posible clasificar y etiquetar datos para hacerlos accesibles y compartibles. Capturan y califican los aspectos de calidad (precisión, completitud, actualidad) de los datos, ayudan a proporcionar políticas de seguridad, permiten entender cómo fluyen los datos, dan información sobre su origen y proporcionan medios para monitorear la utilización de datos. ¿Cómo es esto posible? Los metadatos incluyen información diversa:
Metadatos relacionados con la tecnología: describen almacenes de datos, infraestructura y enlazan datos a plataformas técnicas.
Metadatos semánticos: muestran relaciones, dependencias entre otros y enlazan datos entre sí.
Metadatos analíticos: se refieren a informes, modelos, herramientas analíticas y enlazan datos al análisis.
La importancia de la gestión de metadatos para el negocio
En una empresa, los metadatos sirven diferentes objetivos:
Describir datos
Proporcionar informes, taxonomías y ontologías
Catalogar datos para hacerlos visibles.
Esto hace que los metadatos sean importantes no solo para la tecnología sino también para los departamentos de negocio: se supone que los metadatos sirven de puente entre la descripción técnica de datos y la información de negocio significativa, hacen que los datos sean comprensibles, forman una columna vertebral para la democratización de datos y son un bloque de construcción fundamental para las arquitecturas de autoservicio de datos. Por lo tanto, gestionar estos metadatos es una actividad clave para utilizar los datos de manera eficiente y poder tomar decisiones comerciales informadas.
Evolución de la gestión de metadatos
Originalmente, los problemas que intenta resolver la gestión de metadatos no eran tan relevantes en el pasado. Datos altamente estructurados, enfoques preferidos de esquema en la escritura (definiendo la estructura de datos antes de escribir en la DB), arquitectura centralizada, estructuras de datos homogéneas, procesos estables y el procesamiento por lotes favorecido hacían que los metadatos fueran fáciles de manejar y altamente estáticos al mismo tiempo.
Esto ha cambiado radicalmente en la última década. Los enfoques de gestión de metadatos que se desarrollaron basados en experiencias anteriores lucharon por mantener el ritmo ya con la introducción de los lagos de datos. Podemos ver que la actitud ha cambiado completamente, y los conceptos de homogeneidad fueron abandonados por completo. Lo que vino entonces fueron datos no homogéneos, una multitud de fuentes de datos, una variedad de estructuras y tipos de datos, esquema en la lectura (un enfoque ágil donde el esquema se define mientras se consumen datos) allanó el camino para soluciones de gestión de metadatos más modernas. Se creó una plétora de soluciones específicas. Algunas especializadas en catalogación, otras en descubribilidad o flujo de datos, y otras eran soluciones más completas pero con aplicabilidad relativamente estrecha (de proveedor).
Implicaciones de los nuevos enfoques de gestión de metadatos
¿Qué tienen en común todos estos enfoques? Fallaron en cumplir la promesa, principalmente porque estas soluciones dependían excesivamente del mantenimiento manual. Alguien tenía que adaptar la precisión de los catálogos de datos, verificar el cumplimiento, dirigir el control de uso y supervisar muchas otras actividades. El cambio a lagos de datos distribuidos, también conocidos como malla de datos, profundizó el problema aún más. Aceptar el Diseño Guiado por Dominios (DDD) en las arquitecturas de plataformas de datos con contextos limitados y dominios distribuidos hizo evidente lo difícil que es lograrlo por un lado y lo esencial que es por el otro compartir datos de alta calidad en toda la empresa. Hoy en día, observamos otro cambio. Flujos de datos ilimitados y nunca terminantes conquistan todos los procesos de negocio en la manufactura, finanzas, seguros, atención médica y otras industrias. El procesamiento de flujos y el análisis de flujos acortan el tiempo entre la demanda y el suministro de información. Ofrece una manera de mejorar el rendimiento y reemplazar las operaciones por lotes heredadas y periódicas con unas en tiempo real (o casi en tiempo real).
Ejemplos de la dinamicidad de datos de hoy:
Dominios distribuidos y en evolución
Plataformas de datos altamente no homogéneas
Una variedad de datos y fuentes de datos
La demanda de información en tiempo real,
Una multitud de diferentes tecnologías
En conjunto, hacen que la gestión de metadatos pasiva sea inutilizable en arquitecturas modernas.
Nuevas formas de gestionar los metadatos
Como se explica en este post, los metadatos son datos sobre datos. Como los datos han cambiado mucho en los últimos años, volviéndose mucho más dinámicos, comprensivos y complejos, los metadatos también han alcanzado un nuevo nivel. Esto hace necesario cambiar también la manera en que los gestionamos. Para seguir describiendo datos de manera significativa, catalogarlos y visualizarlos para hacerlos comprensibles para el negocio, se necesita un enfoque más avanzado. Un enfoque que cumpla con los requisitos de la velocidad, volumen y estructura de los datos de hoy. En el próximo post, por lo tanto, miraremos diferentes enfoques que se han utilizado para abordar este nuevo desafío y explicaremos en qué consiste la gestión activa de metadatos.
Pawel Wasowicz
Pawel es Head of data Engineering en Mimacom en Berna, Suiza, y ayuda a nuestros clientes a sacar el máximo partido de sus datos aprovechando las nuevas tendencias, tecnologías ya probadas y los muchos años de experiencia en este campo.