Ciencia de datos. Definición, Chief Data Officer y BigData
Este proyecto esta compuesto por las siguientes temas:
- Ciencia de datos. Definición, Chief Data Officer y BigData enlace
- Ciencia de datos. Gobernanza de los datos y datos maestros enlace
1. Caso de estudio
Supongamos que somos el CDO o Chief Data Officer de una multinacional con sede en tu país. Dicha organización, se dedica a la producción y distribución de productos de telefonía, informática y multimedia.
En este escenario, tu principal responsabilidad es la de gestionar la plataforma de gobierno de datos, cuyo principal objetivo es el de planificar, vigilar y gestionar el uso de los datos.
Como responsable de gobernanza de los datos, mantienes reuniones periódicas de seguimiento con miembros de otros departamentos de la organización, como el de ventas y el de marketing, en donde se presenta el reporting correspondiente a la situación y evolución de los productos, la marca y otros datos internos de la compañía.
Actualmente, el departamento de Marketing Online, es el departamento que más datos hace llegar al seno de la organización a través de las herramientas y técnicas de marketing online de las que dispone: SEO (Search Engine Optimization), SEM (Search Engine Marketing), E-mail marketing, agregadores de productos y publicaciones en medios de terceros.
Además de las técnicas de marketing online anteriores, la organización utiliza técnicas de Marketing Analytics, que, en base a todos los datos disponibles, permiten evaluar diferentes estrategias y poder tomar así las decisiones más beneficiosas para el negocio.
Con este fin, se definen y se analizan las métricas más importantes, y en base a los datos que se disponen, se aplicarán técnicas de análisis predictivo para la elaboración de modelos analíticos que permitan analizar los posibles escenarios futuros.
En este sentido, el uso de herramientas de medición y de visualización geográficas pueden ayudarnos a realizar análisis precisos y captar, por ejemplo, correlaciones existentes entre las diferentes campañas de marketing y la distribución de las ventas de nuestros productos por todo el territorio, teniendo en cuenta variables de análisis como la edad, genero, ubicación de los clientes, etc.
Por otro lado, la organización utiliza las redes sociales para informar a los clientes sobre la aparición de nuevos productos y también para recibir el grado de satisfacción de los clientes con los productos de la compañía.
Sin embargo, el uso que la multinacional hace de las redes sociales no va más allá, y en este sentido, durante la última reunión del comité de dirección de la compañía, se nos informa de la necesidad de potenciar dicho uso para obtener ventaja competitiva respecto al resto de empresas del sector.
El principal objetivo es detectar a personas, con elevada influencia e impacto en las redes sociales, cuyas opiniones acerca de nuestros productos nos permitan captar nuevos clientes e incluso nuevos mercados. Estas personas se considerarán embajadores de la marca en las redes sociales.
En consecuencia, se trata de un proyecto de social analytics que la multinacional quiere llevar a cabo en todos los países donde tiene representación, con el fin de difundir los valores de la compañía, aumentar el número de clientes de su público objetivo, incrementar ventas y servicios en los mercados actuales y aumentar la presencia de la marca online.
Al tratarse de un proyecto de carácter global, los datos y análisis obtenidos deberán ser compartidos por todas las delegaciones.
En este sentido la compañía es consciente de los problemas de los sistemas de computación actuales:
- No son lo suficientemente rápidos, para capturar y almacenar esta información.
- No pueden alojar el volumen de datos relacionados con los productos de la organización que a diario se generan en las distintas redes sociales.
- No pueden gestionar las múltiples fuentes de procedencia y la heterogeneidad de la información (mensajes y fotos en Twitter, Facebook e Instagram, videos en YouTube, etc.).
2.Análisis de la situción
- Definid los conceptos de Business Intelligence (BI), Data Science y Big Data.
- Contextualizad estos tres conceptos en el caso de uso descrito en el enunciado anterior, argumentando en qué momento entrarían en juego los diferentes conceptos, indicando la conveniencia o necesidad de aplicación para el caso que se plantea.
Criterios de evaluación
- Comprender correctamente las diferencias entre Big Data, BI y Data Science.
2.1 Definición Data Science
La definición de Data Science más acertada según mi criterio es la que realiza H. Harris el año 2011 que dice:
Data Science lo podemos definir como las diferentes tareas que ejecuta un Data Scientists en un proyecto. La documentación que existe actualmente sobre ello es muy abundante, y abarca todas las tareas de obtención y recopilación de datos, utilización de algoritmos estadísticos y machine learning, interpretación de los resultados terminando con la visualización y comunicación de las conclusiones obtenidas. } (H. Harris, Data Science, Moore’s Law, and Moneyball: 2011)
Según mi punto de vista, los datos por sí solos no ofrecen a priori ningún valor, ni a las empresas ni a la sociedad. En ocasiones, incluso, ni siquiera son legibles o comprensibles a simple vista, y es necesaria una transformación previa de los mismos para poder interpretarlos.
[6] La función de la data scientist es obtener esos datos provenientes de diferentes canales y con formatos heterogéneos, examinar esa información, sabiendo extraer patrones e interpretar tendencias para darles un valor. Para ello se necesitan poner en marcha diferentes disciplinas que consigan examinar los datos desde diferentes puntos de vista y desarrollar una capacidad analítica global, pero al mismo tiempo concreta. Así, el data scientist será especialista en diferentes campos como matemáticas, programación, estadística e incluso sociología.
Este perfil me permite definir Data Science como un campo interdisciplinario que involucra métodos científicos, procesos y sistemas para extraer conocimiento o un mejor entendimiento de datos en sus diferentes formas, ya sea estructurados o no estructurados. El Data Science incluye campos de análisis como la analítica descriptiva, predictiva y prescriptiva, la estadística, el data mining o minería de datos o el machine learning o aprendizaje automático. El objetivo de esta ciencia es permitir a las organizaciones obtener información de valor procedente de dichos datos, detectar patrones, y conseguir así ventajas competitivas, identificar nuevas oportunidades de negocio y mejorar la experiencia de los usuarios.
[3] 2.2 Definicón Big Data
La definición de Big Data más acertada según mi criterio es la que realiza D. Boyd and K. Crawford el año 2012 que dice:
Big data se puede definir como el fenómeno cultural, tecnológico y académico nacido de la interacción entre los siguientes estudios:
- Tecnología: maximizando la potencia de cálculo y la precisión algorítmica para recopilar, analizar, vincular y comparar grandes conjuntos de datos.
- Análisis: recurrir a grandes conjuntos de datos para identificar patrones con el fin de realizar afirmaciones económicas, sociales, técnicas y legales.
- Mitología: la creencia generalizada de que los grandes conjuntos de datos ofrecen una forma superior de inteligencia y conocimiento que puede generar ideas que antes eran imposibles, con el aura de verdad, objetividad y precisión [7]
D. Boyd y K. Crawford, Critical Questions for Big Data.2012.
Otra definición utilizada he considerado como válida es la siguiente:
Conjunto de estrategias, tecnologías y sistemas para el almacenamiento, el procesamiento, el análisis y la visualización de conjuntos de datos complejos.Ambas definiciones tienen en común un detalle muy importante, hablan del big data como un conjunto de técnicas que permiten obtener patrones para comprender una serie de datos. Es decir, en ambas definiciones no se relaciona el big data con una gran cantidad de datos sino en una serie de datos con una relación que no es evidente sin un análisis de los mismos.
[4] 2.3 Definición Business Intelligence (BI)
Para la definición de Business Intelligence me he basado en el documento Introducción al Business Intelligence de Josep Curto Díaz y Jordi Conesa Caralt
[8] donde se afirma que:
Se entiende por Business Intelligence al conjunto de metodologías, aplicaciones, prácticas y capacidades enfocadas a la creación y administración de información que permite tomar mejores decisiones a los usuarios de una organización. } Josep Curto Díaz y Jordi Conesa Caralt, Introducción al Business Intelligence: 2010
Esta definición nace como respuesta a la necesidad de tener mejores, más rápidos y más eficientes métodos para extraer y transformar los datos de una organización en información y distribuirla a lo largo de la cadena de valor.
Dentro del Business Intelligence nos encontramos con las siguiente técnologias:
- Data warehouse.
- Reporting.
- Análisis OLAP (On-Line Analytical Processing).
- Análisis visual.
- Análisis predictivo.
- Cuadro de mando.
- Cuadro de mando integral.
- Minería de datos.
- Gestión del rendimiento.
- Previsiones.
- Reglas de negocio.
- Dashboards.
- Integración de datos (que incluye ETL, Extract, Transform and Load).
2.4 Contextualización con el caso de estudio.
Data Science
Según mi criterio, en el contexto del enunciado a la data science le corresponderá:
- Recopilar todos los datos de los diferentes departamentos de la organización, como el de ventas y el de marketing, correspondiente a la situación y evolución de los productos, la marca y otros datos internos de la compañía. Dentro de estos datos recopilados para su estudio tendremos datos obtenidos por:
- Herramientas y técnicas de marketing online de las que dispone: SEO (Search Engine Optimization), SEM (Search Engine Marketing), E-mail marketing, agregadores de productos y publicaciones en medios de terceros.
- Técnicas de Marketing Analytics, que permiten evaluar diferentes estrategias y poder tomar así las decisiones más beneficiosas para el negocio.
- Redes sociales, donde podremos obtener el grado de satisfacción de los clientes con los productos de la compañía.
Es importante destacar en este punto que el data science intenta obtener y analizar patrones de los datos, por lo tanto, el recopila los datos que le pueden interesar que previamente el Big Data se ha encargado de almacenar e interpretar. - A partir de los datos proporcionados por la organización se aplicarán análisis predictivo para la elaboración de modelos analíticos que permitan analizar los posibles escenarios futuros. Otro punto a gestionar por el data science es detectar a personas, con elevada influencia e impacto en las redes sociales, cuyas opiniones acerca de nuestros productos nos permitan captar nuevos clientes e incluso nuevos mercados. Estas personas se considerarán embajadores de la marca en las redes sociales utilizando esos mismos datos comentados.
- Una vez realizado las tareas anteriores, el objetivo de aplicar esta ciencia en la empresa será mejorar la difusión los valores de la compañía, aumentar el número de clientes de su público objetivo, incrementar ventas y servicios en los mercados actuales y aumentar la presencia de la marca online.
Big Data
Según mi criterio, en el contexto del enunciado al big data le corresponderá:
- Almacenar todos los datos de los diferentes departamentos de la organización, como el de ventas y el de marketing, correspondiente a la situación y evolución de los productos, la marca y otros datos internos de la compañía. Dentro de estos datos almacenados para su estudio tendremos datos obtenidos por:
- Herramientas y técnicas de marketing online de las que dispone: SEO (Search Engine Optimization), SEM (Search Engine Marketing), E-mail marketing, agregadores de productos y publicaciones en medios de terceros.
- Técnicas de Marketing Analytics, que permiten evaluar diferentes estrategias y poder tomar así las decisiones más beneficiosas para el negocio.
- Redes sociales, donde podremos obtener el grado de satisfacción de los clientes con los productos de la compañía.
- Definir y analizar las métricas.
- Distribuir los datos almacenados entre diferentes delegaciones.
- Solucionar los siguientes problemas:
- Capturar y almacenar esta información velozmente.
- Alojar el volumen de datos relacionados con los productos de la organización que a diario que se generan en las distintas redes sociales.
- Gestionar las múltiples fuentes de procedencia y la heterogeneidad de la información (mensajes y fotos en Twitter, Facebook e Instagram, videos en YouTube, etc.).
Según mi criterio, en el contexto del enunciado al business intelligence le corresponderá: - El uso de herramientas de medición y de visualización geográficas pueden ayudarnos a realizar análisis precisos y captar, por ejemplo, correlaciones existentes entre las diferentes campañas de marketing y la distribución de las ventas de nuestros productos por todo el territorio, teniendo en cuenta variables de análisis como la edad, genero, ubicación de los clientes, etc.
- Informar a través de las redes sociales a los clientes sobre la aparición de nuevos productos, ya que lo considero como un mecanismo de transmisión de información.
- Compartir los análisis de los datos entre las diferentes delegaciones.