La malla de datos es un método sociotécnico para construir una arquitectura de datos descentralizada mediante el aprovechamiento de un diseño de autoservicio orientado al dominio (en una perspectiva del desarrollo de software), y toma prestada la teoría del diseño basado en el dominio de Eric Evans[1] y la teoría de las topologías de equipo de Manuel Pais y Matthew Skelton.[2] La malla de datos tiene que ver con los datos en sí, tomando el lago de datos y las tuberías como una preocupación secundaria.[3] La propuesta principal es escalar los datos analíticos mediante descentralización orientada al dominio.[4] Con la malla de datos, la responsabilidad de los datos analíticos se transfiere del equipo de datos central a los equipos de dominio, respaldados por un equipo de plataforma de datos que proporciona una plataforma de datos independiente del dominio.[5]Esto ayuda a organizar mejor los datos y evita tener áreas aisladas de datos separadas. Es debido a la presencia de un sistema central que se asegura de que todos sigan las mismas reglas básicas dentro de la red de datos, permitiendo compartir datos en diferentes ubicaciones.
El término malla de datos fue definido por primera vez por Zhamak Dehghani en 2019[6] mientras trabajaba como la consultora principal en la empresa de tecnología Thoughtworks .[7][8] Dehghani introdujo el término en 2019 y luego proporcionó más detalles sobre los principios y la arquitectura lógica a lo largo de 2020. Se predijo que el proceso sería un "gran competidor" para las empresas en 2022.[9][10] Algunas de las empresas que han implementado mallas de datos son Zalando,[11] Netflix,[12] Intuit,[13] VistaPrint, JPMorgan Chase,[14] PayPal[15] y otras.
En 2022, Dehghani dejó Thoughtworks para fundar Nextdata Technologies y centrarse en los datos descentralizados.[16]
La malla de datos se basa en cuatro principios fundamentales:[5]
Además de estos principios, Dehghani escribe que los productos de datos creados por cada equipo de dominio deben ser detectables, direccionables, fiables, poseer semántica y sintaxis autodescriptivas, ser interoperables, seguros y regirse por estándares globales y controles de acceso.[18] En otras palabras, los datos deben tratarse como un producto confiable y listo para usar.[9]
Scott Hirleman ha iniciado en su canal de Slack una comunidad de redes de datos que contiene más de 7500 personas.[19]