En nuestro anterior artículo del blog sobre la gestión de metadatos, explicamos por qué la forma de tratar los datos ha evolucionado. Para seguir describiendo los datos de forma significativa, catalogados y comprensibles para las empresas, es necesario un nuevo enfoque más avanzado. Obtén en este artículo más información sobre las estrategias que satisfacen los requisitos actuales de velocidad, volumen y estructura de los datos en la gestión de metadatos. Descubre cómo afrontar los nuevos retos de los metadatos y cómo el enfoque de la gestión activa de metadatos puede ayudarle.
Problemas comunes y principales del enfoque heredado
En un panorama tan dinámico y cambiante como el actual, las soluciones de gestión de metadatos basadas en la gestión manual fracasan estrepitosamente. Aunque al principio parecía manejable, las empresas se dieron cuenta de que, a medida que crecía la demanda, la necesidad de intervenciones manuales continuas en cada etapa de este proceso no era sostenible. Algunos proveedores siguieron el camino de introducir restricciones artificiales para reducir o incluso detener la posible diversidad. Sin embargo, esto provocó el bloqueo del proveedor y obstaculizó la evolución posterior. 'El "Cuadrante Mágico de Gartner para soluciones de gestión de metadatos" de 2020 contiene una visión general de este tipo de tecnologías. Sin embargo, otros proveedores siguieron el camino de diseñar soluciones de propósito único y exponer una API (por ejemplo, OWL, RDF, SKOS) para integraciones de nivel superior. Este planteamiento daba más libertad a los especialistas de dominio y apoyaba las arquitecturas federadas. En consecuencia, se favorecía la responsabilidad descentralizada; sin embargo, el proceso seguía siendo mayoritariamente manual.
En lugar de un mantenimiento manual muy ineficiente, algunas soluciones de gestión de metadatos utilizan procesos automáticos que aprovechan agentes o rastreadores. Se supone que éstos se conectan a las fuentes de datos y envían la información relevante a los servicios de gestión de metadatos. Debido a las diversas estructuras de datos, los diseños basados en agentes suelen adolecer de una complejidad creciente y se vuelven inmanejables. Además, la insuficiente sofisticación de estos enfoques dificulta el mantenimiento de la exactitud de los metadatos a lo largo del tiempo.
Descripción de soluciones parciales
Hay muchas buenas prácticas para abordar el problema. En primer lugar, la capa de gestión de metadatos debe desarrollarse gradualmente. Su evolución deberá estar impulsada por la demanda. El equipo responsable debe apostar por la creación de una comunidad en torno a ella y definir normas acompañadas, por ejemplo, de planos. Las soluciones de gestión de metadatos deberán identificar y centrarse primero en los datos más críticos y relevantes, y sólo después, una vez que surja el patrón, dar cabida potencialmente al resto. Deberán definir patrones de integración con otros sistemas del panorama de la organización, por ejemplo, con ayuda de API vía streaming. Para diseñar una solución sostenible, deberán participar en esta empresa representantes de toda la organización. La capa de gestión de metadatos puede ser una plataforma consolidada o distribuida, o una combinación de ambas. Deberá cumplir y hacer cumplir las normas de gobernanza y proporcionar acceso inmediato a datos de alta calidad a través de un conjunto de servicios inteligentes y de autoservicio.
El almacén de metadatos propiamente dicho puede abarcar desde almacenes ordinarios de clave-valor hasta bases de datos gráficos y aprovechar la indexación para consultas más complejas o incluso un motor de análisis.
Relación con la gobernanza
Aunque la gobernanza de datos está estrechamente relacionada con la gestión de metadatos, va mucho más allá de los conceptos de infraestructura o arquitectura. La gobernanza de datos define y afecta a los procesos, a la organización y cultura de trabajo de la empresa, a los empleados y posiblemente a otros aspectos. Sin embargo, puede decirse que la gobernanza de datos establece políticas de corrección y disponibilidad, mientras que los metadatos son la forma de comunicar las decisiones de gobernanza.
La capa de gestión de metadatos debe ofrecer un acceso abierto y ampliable, respetando al mismo tiempo las políticas de gobernanza.
La gestión activa de metadatos como solución para cumplir los requisitos actuales de metadatos
La gestión de metadatos es una de las partes centrales de las plataformas de datos modernas. En 2021, Gartner reconoció un cambio en las tendencias de la gestión de metadatos y reconsideró su enfoque original. Tras identificar problemas con las técnicas entonces populares, destacó una nueva tendencia: la gestión activa de metadatos. Reconocida como un concepto crucial en las modernas arquitecturas de datos distribuidos, que siguen principios de malla de datos y/o tejido de datos. Según Gartner "La gestión activa de metadatos es un conjunto de capacidades que permiten el acceso continuo y el procesamiento de metadatos que apoyan el análisis continuo en un espectro diferente de madurez, casos de uso y soluciones de proveedores."
A continuación, Gartner procede a identificar sus partes esenciales:
ML en lugar de perfiles
El proceso de definición de metadatos asociados a conjuntos de datos era jerárquico y utilizaba algoritmos estadísticos que operaban a nivel de atributos, columnas o incluso conjuntos de datos. Es lo que se conoce como perfilado de datos. Este enfoque no se adapta bien al número de conjuntos de datos y no es lo suficientemente flexible. Según Gartner, una técnica utilizada para analizar y comprender mejor los datos sin procesar debe aprovechar los algoritmos de aprendizaje automático y debe utilizarse como primer paso para determinar qué información pueden aportar los datos.
Análisis de contenido
Es una técnica utilizada para hacer inferencias replicables y válidas mediante la interpretación y codificación de material textual. Aplicadas sistemáticamente, las herramientas de análisis de contenido pueden proporcionar datos cuantitativos reales, representando eficazmente cualquier contenido de forma mensurable. De este modo, se sientan las bases para obtener información práctica.
Agrupación de usuarios y casos de uso
Al encontrar patrones en el uso de los datos, se pueden detectar proactivamente y habilitar nuevos casos de uso potenciales para aumentar el rendimiento de los existentes. Esta capacidad incluye la agrupación de usuarios con patrones de visualización similares para recomendar contenidos similares mediante técnicas de detección de anomalías.
Métricas de asignación de recursos
Disponer de amplias métricas relacionadas con la medición de recursos es crucial para la asignación dinámica y autónoma de recursos de software y hardware.
Alertas y recomendaciones
.La operacionalización de la analítica viene en forma de alertas y notificaciones. La información está disponible de forma inmediata.
Inferencia de nuevos activos
El proceso de encontrar relaciones y estructuras no explícitas en los datos. La comparación continua con metadatos pasivos ayuda a aplicar reglas de calidad y proporciona recomendaciones a los usuarios para apoyar el descubrimiento de metadatos.
Orquestación de recomendaciones y respuestas
La interoperabilidad con las plataformas de gestión de datos es crucial para ofrecer respuestas más completas. La integración de metadatos de diseño y ejecución en todas las plataformas de datos permite inferir nueva información.
La gestión activa de metadatos es una oportunidad para el acceso a datos de alta calidad y el cumplimiento de la gobernanza
Los enfoques probados anteriormente ya no son adecuados para gestionar los metadatos de hoy en día. En este artículo, explicamos distintos enfoques para gestionar los nuevos retos que la manipulación de datos ha supuesto para la gestión de metadatos. La capa de gestión de metadatos puede ser una plataforma consolidada o distribuida, o una mezcla de ambas. Permitirá el cumplimiento de las normas de gobernanza. Además, proporcionará acceso inmediato a datos de alta calidad a través de un conjunto de servicios inteligentes y de autoservicio. Gartner ha destacado la gestión activa de metadatos como una nueva tendencia y un concepto crucial en las arquitecturas modernas de datos distribuidos y con este post hemos destacado las partes esenciales de la misma. En nuestro próximo artículo sobre la gestión de metadatos, explicaremos los principios de la gestión de metadatos en las arquitecturas de tejido de datos.
Pawel Wasowicz
Pawel es Head of data Engineering en Mimacom en Berna, Suiza, y ayuda a nuestros clientes a sacar el máximo partido de sus datos aprovechando las nuevas tendencias, tecnologías ya probadas y los muchos años de experiencia en este campo.