Go to homepage

Gestión de metadatos en arquitecturas de data fabric

metadata-management-data-fabric-architectures-2000x1300.jpg
metadata_management.png

Gestión de metadatos en data fabric

En el segundo artículo de la serie de blogs sobre metadatos (contenido en inglés), explicamos por qué los enfoques probados anteriormente ya no son adecuados para gestionar los metadatos actuales. Dado que Gartner ha destacado la gestión activa de metadatos como una nueva tendencia y un concepto crucial en las modernas arquitecturas de datos distribuidos, pusimos de relieve las partes esenciales de la misma. En este tercer y último artículo sobre la gestión de metadatos, explicaremos los principios de la gestión de metadatos en las arquitecturas de tejido de datos.

Modelo de madurez de la tecnología de metadatos

Según Gartner, la evolución hacia arquitecturas activas de gestión de metadatos sigue algunas etapas.

Comienza con una gestión de metadatos ad hoc y descoordinada, en la que aún no existen normas y los proyectos son totalmente independientes en su planteamiento. A continuación, evoluciona mediante la definición de prácticas normalizadas para toda la organización, aprovechando herramientas específicas que permiten una primera visión centrada en los flujos de datos y el linaje. Por último, alcanza el nivel en el que las técnicas de aprendizaje automático pueden utilizarse para proporcionar las capacidades de gestión activa de metadatos descritas anteriormente.

Cada paso de este proceso debe planificarse cuidadosamente y realizarse con una visión clara en mente. Es bueno confiar en la experiencia y los conocimientos de empresas como Mimacom durante esta transición.

Según el estudio de mercado presentado, las capacidades aumentadas de gestión de datos son de interés central. Esta puede considerarse la principal fuerza impulsora del cambio de paradigma en las plataformas de gestión de metadatos. Gartner no considera condenados los sistemas pasivos de gestión de metadatos, pero predice que los sistemas autónomos como los que subyacen a la gestión activa de metadatos cobrarán un impulso considerable. El bloque fundamental de la gestión activa de metadatos va a ser la IA.

La gestión de metadatos forma parte de la arquitectura Data Fabric

Las arquitecturas modernas de plataformas de datos se enfrentan a numerosos retos. Como se mencionó al principio, la arquitectura de lago de datos, aunque aborda la necesidad de conjuntos de datos no homogéneos, no se adapta fácilmente a los requisitos de soluciones de dominios federados ni de nubes múltiples o híbridas.

Las arquitecturas de plataformas de datos, como la malla de datos o el tejido de datos, adoptan los conceptos de diseño orientado al dominio, por lo que favorecen los dominios de datos distribuidos e independientes, y abordan las necesidades de integración de múltiples tecnologías y herramientas.

Los conceptos de tejido y malla de datos abordan todos los problemas que surgen en las plataformas de datos modernas, complejas y no homogéneas, pero optan por enfoques ligeramente diferentes. Ambos diseños pretenden ofrecer una visión holística de los datos. Sin embargo, mientras que la malla de datos se centra en la administración de datos distribuida y centrada en el dominio, el tejido de datos sitúa la integración sin fisuras y el intercambio de datos en el centro.

La arquitectura de malla de datos hace especial hincapié en el DDD y está impulsada por las API, por lo que favorece la independencia del proyecto y se basa en la integración de alto nivel. El cumplimiento de la gobernanza de datos en este enfoque se aplica por separado y la capa final de gobernanza de datos es emergente. El concepto de tejido de datos, aunque sigue adoptando arquitecturas distribuidas y basadas en dominios, puede describirse como una solución de código más bajo impulsada por el aumento de la IA.

Las diferencias son más visibles cuando se trata de la gestión de metadatos. La gobernanza de datos, de la que forma parte la gestión de metadatos, tiene una estructura ascendente en la malla de datos. Se basa en la responsabilidad de los dominios, permanece federada y se integra aprovechando las disposiciones centrales. En la arquitectura de malla de datos, al centrarse en la gestión de datos y la seguridad desde el principio, se supone que la gobernanza es una característica integrada.

Como de costumbre, esto no significa que las organizaciones tengan que elegir uno u otro enfoque. Pueden coexistir ambos conceptos: la malla de datos totalmente basada en dominios con gobernanza emergente y el tejido de datos con su solución de gestión activa de metadatos aumentada. Depende de las necesidades específicas de cada empresa encontrar el equilibrio adecuado entre ambas arquitecturas.

Conclusiones

En esta serie de blogs, me he centrado en la gestión de metadatos en plataformas de datos. Mostré cómo la gestión pasiva original de metadatos no se ajusta a las necesidades de las arquitecturas modernas de plataformas de datos y por qué debe mejorarse o incluso sustituirse por procesos autónomos de enfoques activos de gestión de datos. A continuación, hice una breve comparación de los enfoques de la gobernanza de datos, en la que la gestión de metadatos es crucial en dos arquitecturas de datos punteras: data mesh y data fabric. Ambas ofrecen soluciones prometedoras a los problemas relacionados con la creciente complejidad de las plataformas de datos.

En Mimacom, estaremos encantados de ayudarle a encontrar el camino correcto para una plataforma de datos y su evolución en su organización.

Glosario de Gestión de metadatos

Linaje de datos: es una forma de entender cómo fluyen los datos a través de toda la plataforma. Se supone que proporciona una visión multidimensional: qué sistemas y cuándo participan, cómo se transforman y procesan dentro de un mismo sistema y, por último, cómo se relacionan con los procesos empresariales.

Procedencia de los datos: Una parte crucial del linaje, ya que se ocupa del origen de los datos, es decir, la capa de captura de datos y las fuentes de datos.

Data governance: Es un conjunto de actividades que implican la descripción, el diseño, la aplicación y el cumplimiento del control sobre los datos y los procesos de gestión de datos. Relaciona los datos con la propiedad o administración de los mismos, está estrechamente relacionado con la seguridad de los datos y se basa en gran medida en los metadatos.

Data mesh: Un enfoque arquitectónico de las plataformas de datos. Naturalmente, el siguiente paso en la evolución del lago de datos. Siguiendo los conceptos del Diseño Orientado a Dominios, abarca arquitecturas distribuidas, flexibilidad e independencia razonable de los proyectos, manteniendo al mismo tiempo la accesibilidad y disponibilidad de los datos.

Data fabric: Es un enfoque arquitectónico que tiene como objetivo proporcionar un acceso sin fisuras a los datos de una manera que cumpla con las regulaciones requeridas aprovechando técnicas autónomas.

Democratización de datos: Es un enfoque para acercar los datos a todos los interesados. Proporcionarles herramientas y servicios para encontrar y utilizar los datos de forma más eficiente. Esta tendencia puede aprovechar portales de autoservicio para descubrir y suministrar datos, mercados que utilicen todo tipo de metadatos y servicios inteligentes que apoyen diversos procesos de toma de decisiones.

Esquema durante la escritura frente a el esquema frente a la lectura: El esquema durante la escritura es un procedimiento que consiste en definir la estructura de los datos antes de escribirlos en la base de datos. Se trata de un enfoque original popular entre las RDB. Por otro lado, el esquema durante la lectura es un enfoque más ágil en el que el esquema se define mientras se consumen los datos. El esquema durante la lectura acelera el proceso de incorporación de nuevas fuentes de datos.

Head of Data Engineering

Pawel Wasowicz

Pawel es Head of data Engineering en Mimacom en Berna, Suiza, y ayuda a nuestros clientes a sacar el máximo partido de sus datos aprovechando las nuevas tendencias, tecnologías ya probadas y los muchos años de experiencia en este campo.