Ciencia de datos. Gobernanza de los datos y datos maestros

Este proyecto esta compuesto por las siguientes temas:
  • Ciencia de datos. Definición, Chief Data Officer y BigData enlace
  • Ciencia de datos. Gobernanza de los datos y datos maestros enlace

Caso de estudio

Supongamos que somos el CDO o Chief Data Officer de una multinacional con sede en tu país. Dicha organización, se dedica a la producción y distribución de productos de telefonía, informática y multimedia.

En este escenario, tu principal responsabilidad es la de gestionar la plataforma de gobierno de datos, cuyo principal objetivo es el de planificar, vigilar y gestionar el uso de los datos.

Como responsable de gobernanza de los datos, mantienes reuniones periódicas de seguimiento con miembros de otros departamentos de la organización, como el de ventas y el de marketing, en donde se presenta el reporting correspondiente a la situación y evolución de los productos, la marca y otros datos internos de la compañía.

Actualmente, el departamento de Marketing Online, es el departamento que más datos hace llegar al seno de la organización a través de las herramientas y técnicas de marketing online de las que dispone: SEO (Search Engine Optimization), SEM (Search Engine Marketing), E-mail marketing, agregadores de productos y publicaciones en medios de terceros.

Además de las técnicas de marketing online anteriores, la organización utiliza técnicas de Marketing Analytics, que, en base a todos los datos disponibles, permiten evaluar diferentes estrategias y poder tomar así las decisiones más beneficiosas para el negocio.

Con este fin, se definen y se analizan las métricas más importantes, y en base a los datos que se disponen, se aplicarán técnicas de análisis predictivo para la elaboración de modelos analíticos que permitan analizar los posibles escenarios futuros.

En este sentido, el uso de herramientas de medición y de visualización geográficas pueden ayudarnos a realizar análisis precisos y captar, por ejemplo, correlaciones existentes entre las diferentes campañas de marketing y la distribución de las ventas de nuestros productos por todo el territorio, teniendo en cuenta variables de análisis como la edad, genero, ubicación de los clientes, etc.

Por otro lado, la organización utiliza las redes sociales para informar a los clientes sobre la aparición de nuevos productos y también para recibir el grado de satisfacción de los clientes con los productos de la compañía.

Sin embargo, el uso que la multinacional hace de las redes sociales no va más allá, y en este sentido, durante la última reunión del comité de dirección de la compañía, se nos informa de la necesidad de potenciar dicho uso para obtener ventaja competitiva respecto al resto de empresas del sector.

El principal objetivo es detectar a personas, con elevada influencia e impacto en las redes sociales, cuyas opiniones acerca de nuestros productos nos permitan captar nuevos clientes e incluso nuevos mercados. Estas personas se considerarán embajadores de la marca en las redes sociales.

En consecuencia, se trata de un proyecto de social analytics que la multinacional quiere llevar a cabo en todos los países donde tiene representación, con el fin de difundir los valores de la compañía, aumentar el número de clientes de su público objetivo, incrementar ventas y servicios en los mercados actuales y aumentar la presencia de la marca online.

Al tratarse de un proyecto de carácter global, los datos y análisis obtenidos deberán ser compartidos por todas las delegaciones.

En este sentido la compañía es consciente de los problemas de los sistemas de computación actuales:
  • No son lo suficientemente rápidos, para capturar y almacenar esta información.
  • No pueden alojar el volumen de datos relacionados con los productos de la organización que a diario se generan en las distintas redes sociales.
  • No pueden gestionar las múltiples fuentes de procedencia y la heterogeneidad de la información (mensajes y fotos en Twitter, Facebook e Instagram, videos en YouTube, etc.).

1.Como responsable del área de gobernanza de los datos y en particular de la función de gestionar los datos maestros (MDM):

  • ¿Qué etapas o fases debería contemplar un programa de gestión de datos maestros en una organización como la que se describe en el enunciado? ¿Cuál es el objetivo de cada una de ellas en el contexto de la organización descrita?
  • ¿Qué modelo de madurez en la gestión de datos maestros, crees que debe tener una organización como la del caso de estudio? ¿Qué capacidades crees que debería tener?
  • ¿Qué impacto (ventajas/inconvenientes) crees que puede tener el proyecto de detección de embajadores en las redes sociales en el MDM de nuestra organización.

1.1 ¿Qué etapas o fases debería contemplar un programa de gestión de datos maestros en una organización como la que se describe en el enunciado? ¿Cuál es el objetivo de cada una de ellas en el contexto de la organización descrita?

Las etapas que debería contemplar un programa de gestión de datos maestros para la organización descrita en el enunciado son:
  • Identificar fuentes de datos maestros: En este punto vamos a crear un catálogo de todas las fuentes de datos que contengan datos de materiales, productos, proveedores, clientes, empleados y activos que podrían provenir:
    • Aplicaciones de la empresa como ERP para la gestión financiara, HRM para el control control personal, PLM gestión de productos, etc. donde podemos obtener información de ventas y el de marketing, correspondiente a la situación y evolución de los productos, la marca y otros datos internos de la compañía.
    • Herramientas y técnicas de marketing online de las que obtendremos datos relacionados con campañas publicitarias como: SEO (Search Engine Optimization), SEM (Search Engine Marketing), E-mail marketing, agregadores de productos y publicaciones en medios de terceros.
    • Redes sociales, donde podremos obtener el grado de satisfacción de los clientes con los productos de la compañía.
    Estas herramientas nos proporcionarán datos en forma de entidades como productos, departamentos, empleados, países, campañas, etc. y otros como el SEO, SEM, E-mail marketing.
    • Herramientas de marketing digital que produciran información relacionada con el SEO (Search Engine Optimization), SEM (Search Engine Marketing), E-mail marketing, agregadores de productos y publicaciones en medios de terceros.
    • Redes sociales.
    • Aplicaciones de la empresa como ERP para la gestión financiara, HRM para el control control personal, PLM gestión de productos, etc.
    En otro sentido, los consumidores serán
    • Aplicaciones de la empresa como ERP para la gestión financiara, HRM para el control control personal, PLM gestión de productos, etc ya que se nutrirán de datos como los resultados de las campañas, evolución de las compras, etc.
    • Redes sociales donde se realizarán las campañas, captación de usuarios, etc.
    • Herramientas de marketing ya que necesitan datos internos de la empresa para proporcionar nuevos datos.
    • Herramientas o plataformas de Marketing Analytics.
    • Herramientas de medición y de visualización geográfica.
  • Recopilar y analizar metadatos acerca de sus datos maestros: A partir de los datos obtenidos en el caso podríamos definir por ejemplo el valor campaña como dato maestro formado con los siguientes atributos (datos referencia):
    • SEO (Search Engine Optimization) Seo poseerá otra entidad donde dentro de ella se añadirán otros valores como Trust Flow, Citation Flow que son métricas utilizadas en Seo.
    • SEM (Search Engine Marketing) SEM será otra entidad donde dentro de ella se encontrarán CPC (Coste por clic) CPM (Coste por Mil) CPA (Coste por Acción), CTR, CPV, CPL utilizadas para medir el SEM
    • E-mail marketing será otra entidad donde dentro de ella se encontrarán la tasa de apertura, tasa de clics utilizadas para medir el E-mail marketing
    • Agregadores de productos
    • Publicaciones en medios de terceros.
    • publico objetivo redes sociales
    • Producto
    A parte de esta información del caso, también obtendremos:
    • Datos financieros: este tipo de datos puede obtenerse del ERP (enterprise resource planning), que es un sistema informático destinado a la administración de recursos en una organización.
    • Datos de clientes: este tipo de datos puede obtenerse del CRM (customer relationship management), que es un sistema informático para la administración y gestión de la relación con clientes. Sin embargo, con la explosión de las redes sociales e información de terceros, es posible extender esta información más allá de los sistemas internos de la organización.
    • Datos de empleados: este tipo de datos puede obtenerse del HRM (human resources management), que es un sistema informático para la administración y gestión de la relación con empleados. También es posible encontrar información en sistemas para la gestión de proyectos. Sucede lo mismo que con la información de cliente que es posible extender con información de terceros.
    • Datos de productos: este tipo de datos se puede obtener del PLM(product lifecycle management), que es un sistema para la gestión del ciclo de vida de un producto, desde su diseño hasta el fin de su vida útil y reciclaje.

      Dentro de los datos de productos tendremos los siguientes datos según el enunciado
      • Ventas
      • Distribución del producto
    • Datos de localización: que pueden incluir datos geopolíticos (como países,estados, provincias, etc.) y datos de negocio (como direcciones de oficinas, de almacenes, etc.).
    Un dato de transacción muy importante será la venta, ya que dependiendo de la localización de esta se genera el reporting solicitado mediante la herramienta de medición y visualización geográfica. Una venta tendrá:
    • hora
    • fecha
    • localización
    • producto
    • cliente
    También es importante en el caso de estudio las redes sociales, y más exactamente los usuarios que la utilizan que los podemos almacenar como un dato maestro que contiene:
    • identificador.
    • características y aficiones.
    • país.
    • red social.
    El usuario tendrá en los datos transaccionales llamado valoración donde con la siguiente estructura quedará reflejada la opinión del usuario respecto una campaña, un producto o la propia compañía:
    • usuario
    • objeto, campaña o empresa valorada
    • valoración
    Por último, las técnicas de Marketing Analytics nos pueden proporcionar información acerca de visualizaciones, tiempo de interacción por usuario, localización, dispositivo por el que accede, etc. Este dato transaccional se generará al interactuar un usuario con la campaña y podremos llamarlo Visualización Campaña
  • Nombrar a administradores de datos:
    • Ventas: Serán administradas por el ERP con la supervisión del departamento de contabilidad.
    • Productos: Serán administradas por el PLM con la supervisión del gerente de producto.
    • Empleados: Serán administradas por el HRM con la supervisión del departamento de contabilidad.
    • Clientes: Serán administradas por el CRM con la supervisión del departamento de atención al cliente y facturación.
    • Campaña: Serán administradas por la Herramientas de marketing con la supervisión del departamento de Marketing.
    • Visualización Campaña: Serán administradas por la herramienta de Marketing Analytics con la supervisión del departamento de marketing.
    • Valoración: Serán administradas por aplicaciones de gestión de redes sociales en el departamento de social media.
    • Usuarios: Serán administradas por aplicaciones de gestión de redes sociales en el departamento de social media.
  • Implementar un programa y un consejo de gobierno del dato: la implementación de MDM necesita del gobierno del dato que sería;
    • Ventas: Serán almacenados durante 10 años, a partir de ese periodo los datos serán eliminados del ERP y almacenados en un servidor de backup.
    • Productos: serán almacenados durante 10 años en los diferentes programas, a partir de ese tiempo los datos serán eliminados de los diferentes y almacenados en un servidor de backup.
    • Empleados: serán almacenados durante 10 años en los diferentes programas, a partir de ese periodo los datos serán eliminados de los diferentes programas y almacenados en un servidor de backup.
    • Clientes: serán almacenados durante 10 años en los diferentes programas, a partir de ese periodo los datos serán reducidos y almacenados en un servidor de backup.
    • Campaña: serán almacenados durante 5 años, posteriormente se almacenarán solamente reportes o el resultado de las campañas para reducir la cantidad de datos a gestionar.
    • Visualización Campaña: Serán administradas por 3 años.
    • Valoración: serán almacenados durante 2 años, posteriormente se almacenarán solamente reportes o el resultado de la gestión de estos para reducir la cantidad de datos a gestionar.
    • Usuarios: Serán almacenados al completo durante 2 años, a partir de ese momento, si el usuario no accede nuevamente a alguno de nuestros productos o campañas serán reducidos de tamaño hasta llegar al 10 año que se eliminara del sistema.
  • Desarrollar un modelo de datos maestros: Un ejemplo de desarrollo sería el siguiente:
    • Campaña.
      • SEO (Search Engine Optimization) Entidad referenciada.
      • SEM (Search Engine Marketing)
      • E-mail marketing
      • Agregadores de productos
      • Publicaciones en medios de terceros.
      • Público objetivo redes sociales
      • Producto
    • SEO (Search Engine Optimization).
      • Trust Flow. Valor numérico.
      • Citation Flow. Valor numérico.
      • Etc.
    • SEM (Search Engine Marketing).
      • CPC (Coste por clic). Valor numérico.
      • CPM (Coste por Mil). Valor numérico.
      • CPA (Coste por Acción). Valor numérico.
      • CTR (Ratio de clicks). Valor numérico.
      • CPV (Coste por visualización). Valor numérico.
      • CPL (Precio de la fidelización del ciente)
      • Etc.
    • E-mail marketing.
    • Agregadores de productos.
    • Publicaciones en medios de terceros.
    • publico objetivo redes sociales.
    • Producto.
      • precio.
      • localización.
      • coste.
      • información.
    • Datos financieros.
      • ventas.
      • localización.
      • datos empleados.
      • saldos.
      • facturas.
    • Datos empleados.
      • Número de identificación fiscal.
      • Nombre. Cadena de caracteres.
      • cuenta IBAN. Cadena de caracteres.
    • Datos de localización:
      • Coordenadas
      • País
      • Estado/Provincia
    • venta
      • hora
      • fecha
      • localización
      • producto
      • cliente
    • usuarios
      • identificador.
      • características y aficiones.
      • país.
      • red social.
    • valoración
      • usuario
      • objeto, campaña o empresa valorada
      • valoración
    • Visualización Campaña
      • información acerca de visualizaciones
      • tiempo de interacción por usuario
      • localización
      • dispositivo por el que accede
      • etc.
  • Elegir un conjunto de herramientas: La implementación de la gestión dedatos maestros requiere herramientas de soporte para el almacenamientodel dato, el tratamiento del dato, su limpieza y su gestión. Para ello vamos a utilizar todas las técnicas de almacenamiento de datos, calidad de datos, jerarquías y exploración de datos, aplicaciones y sistemas con el objetivo que integrar los datos y medir su calidad para tratar los datos comentado anteriormente.

    Respecto a las herramientas utilizadas podriamos utilizar:
    • Python como lenguaje de programación ya que utilimamente es el lenguaje que mejor se ha adaptado para la gestión de datos.
    • Tecnologías de big data, como Hadoop (y su ecosistema) y otras tecnologíasNoSQ, ya que, por la variedad de datos, su distribución en múltiples delegaciones y su rendimiento nos puede ofrecer la mejor solución para nuestra empresa.
    • Conocimiento de herramientas de acceso a API para poder obtener información de las redes sociales.
    • Lenguajes predictivos, como PMML22. Utilizando estos lenguajes podíamos utilizar la información que nos proporciona las técnicas y herramientas de Analitycs si el usuario va a realizar una comprar en alguno de nuestros productos en función de diferentes parámetros, como la edad, sus aficiones, su histórico de navegación, etc.
    • Conocimiento de fuentes de open data para obtener localizaciones, datos demográficos para nuestras campañas, etc.
    • Herramientas de minería de datos, como R, SAS, SPSS o Knime que nos permitirían conocer la intención de compra por parte de los usuarios que visitan nuestra campaña a partir de parámetros como sus aficiones, histórico de navegación, etc.
    • Herramientas de análisis matemático, como MATLAB o Mathematica. En el análisis de los formularios podemos obtener datos relacionados con el sexo de los usuarios, su edad, estado civil y situación laboral, aficiones, etc. indicando el porcentaje de cada valor posible para cada variable y obteniendo valores como la moda, la media, la mediana, los cuartiles, etc. para estos valores.
    • Herramientas de business intelligence, como IBM Cognos, SAP Business Objects,Pentaho o Jaspersoft. El ejemplo sería el uso de herramientas de medición y de visualización geográficas pueden ayudarnos a realizar análisis precisos y captar, por ejemplo, correlaciones existentes entre las diferentes campañas de marketing y la distribución de las ventas de nuestros productos por todo el territorio, teniendo en cuenta variables de análisis como la edad, genero, ubicación de los clientes, etc.
    • Herramientas vinculadas con el despliegue de analítica en la nube, comoAWS24 o Azure que nos darían solución al acceso de la información desde múltiples delegaciones de forma eficiente y agil.
    • Herramientas de reporting, como iReport o Actuate Birt para realizar reportes de ventas.
    • Bases de datos relacionales, como Oracle, PosgreSQL o MySQL para almacenar los datos simples o la información del CRM o el ERP.
    • Herramientas de marketing y analytics.
  • Diseñar la infraestructura:Según mi interpretación del enunciado la combinación continua es el mejor modelo de infraestructura que se adapta al enunciado, ya que las diferentes delegaciones en diferentes países pueden cambiar su copia de los datos maestros para posteriormente remitirlos a la copia maestra, donde se fusionan con el modelo maestro. Esta solución es compleja pero las bases de datos NoSQL están diseñadas y adaptadas para estas características.
  • Generar y probar los datos maestros: en este paso, se utilizan las herramientasque han sido seleccionadas y se combinan los datos de origenpara confirmar las listas de datos maestros. Durante el proceso, frecuentementese requiere el ajuste de reglas de negocio al descubrir, por ejemplo,excepciones. Aunque las herramientas han avanzado considerablemente,la inspección manual puede ser necesaria para asegurar que los resultadosson correctos y cumplir con los requisitos establecidos para el proyecto.
  • Modificar los sistemas productores y consumidores: Es decir, tendremos que crear las nuevas estructuras donde se almacén los datos y preparar el sistema para el nuevo ciclo de vida del dato.
  • Implementar los procesos de mantenimiento: Esta fase será gestionar las datos que proporcionen las diferentes herramientas sean válidos y no se modifique su estructura.

1.2 ¿Qué modelo de madurez en la gestión de datos maestros, crees que debe tener una organización como la del caso de estudio?

Un modelo gobernado ya que gobierno del dato es soportado en un ámbito ejecutivo de la organización. Existe un CDO cuyo principal objetivo es el de planificar, vigilar y gestionar el uso de los datos.

Además, el proyecto busca monitorizar y capturar datos continuamente de toda la información que generar la organización, aprovechando la estructura existente y con el objetivo de mejorar el valor de la empresa.

1.3 ¿Qué impacto (ventajas/inconvenientes) crees que puede tener el proyecto de detección de embajadores en las redes sociales en el MDM de nuestra organización?

Dentro de las ventajas que va a tener la detección de embajadores, la principal es la económica, ya que mediante las redes sociales podemos conseguir publicidad y notoriedad para nuestras campañas, de forma sencilla, más económica que la publicidad en medios o web y focalizando mucho nuestro público objetivo.

Además, ayuda bastante a mejorar la reputación de la compañía y difundir sus valores (una de las necesidades del enunciado). Con este proyecto se obtendrán millones de visitas a nuestras campañas o difusiones con lo que se verá incrementado la difusión de nuestros productos. También permite dar a conocer mejor los productos de la compañía a usuarios de dichas redes.

Ahora bien, dentro de las desventajas debemos alertar del coste computacional del proyecto. Para detectar un embajador deberemos indicar que tipo de perfil debe cumplir la persona que se considere embajador (gustos, aficiones, cantidad de seguidores, etc.) y analizar la información que nos proporcionen las diferentes redes sociales a través de consultas a las diferentes API disponibles.

Está realmente tiene un coste computacional elevado, ya que buscar esa información, almacenarla y después analizarla no es una tarea sencilla. Para ello tendremos que realizar una inversión elevada en equipos que permitan realizar este análisis de forma eficiente, bases de datos donde almacenar toda esta información durante un periodo de tiempo y, además, si queremos tener un acceso rápido a la información tendremos que pagar la versión premium para el acceso veloz a la información que nos proporciona la API.

Una vez escogidos el trabajo no quedaría ahí, tendremos que monitorizar, almacenar, supervisar y analizar todas las difusiones que realice y, además, estás pueden ser vídeos, textos o incluso imágenes. Es decir, necesitamos una solución que nos permita trabajar con datos de diversa índole, distribuidos en diferentes países y además con un volumen bastante elevado de datos.