Diseño y construcción del data warehouse. Preguntas
1. Pregunta 1
Indique si la siguiente afirmación es verdadera o falsa y justifiquesu respuesta: El Data Warehouse tiene como uno de sus principales objetivos ser unrepositorio central de información corporativa que puede proveer variossistemas. Por ello, algunas de sus funciones son consolidar yhomogeneizar la información proveniente de los diferentes sistemas de lacompañía, además de depurar y limpiar los datos, asegurando su calidad.
1.1 Respuesta
La afirmación es
Verdadera. La información importante para un negocio normalmente se encuentra dispersa entre diferentes sistemas, bases de datos o aplicaciones. Este hecho es debido a la dificultad para elegir la metodología más adecuada para cada caso, cada proyecto, por sus características intrínsecas, requiere distintas formas de gestión. Por ejemplo, un cliente se gestiona de forma diferente en un programa de facturación que en un sistema de atención al cliente.
El Data Warehouse tiene como uno de sus principales objetivos el ser un repositorio central de información corporativa que puede provenir de diversos sistemas. Estos proyectos requieren un conocimiento avanzado de dónde están los datos y qué quieren decir. Es necesario la construcción de una nueva arquitectura intermedia, que debe ser permanente y a la vez flexible, y un conocimiento de los productos a veces muy sofisticados y a la vez poco maduros sobre los que se forman las nuevas plataformas.
Un ejemplo sería un visor de la evolución comercial para un directivo de una empresa cerámica. Este directivo desea conocer mediante una plataforma web el número de incidencias que ha habido entre los clientes, que tipo de acciones han llevado a cabo, donde están situados nuestros clientes, quien ha realizado las gestiones con los clientes, que ofertas han escogido más, que tarifas han generado más interés, etc.
Para realizar este visor necesitare obtener información de diferentes plataformas de la empresa para después gestionarla y darle un valor en la pantalla. Para ello deberá existir un contacto directo con los diferentes clientes internos de la aplicación como son atención al público, facturación, gestión comercial, etc. que me proporcionarán y validarán la información que gestionan.
Este visor debería obtener la información del Data Warehouse donde ha obtenido la información proveniente de los diferentes sistemas, la ha unificado, depurado y proporcionado al visor de forma que pueda interpretarla correctamente.
2. Pregunta
Indique si la siguiente afirmación es verdadera o falsa y justifique su respuesta: El nivel de agregación permite la acumulación de los datos, de maneraque en un nivel 0 tendríamos del máximo nivel de detalle, y en nivelessuperiores iríamos agregando los datos por alguna dimensión (calendario,producto, geografía, etc.) Este nivel de agregación suele ser único ybastante bajo en las bases de datos operacionales, mientras que en elalmacén de datos solemos disponer de la misma información condiferentes niveles de agregación.
2.1 Respuesta
Es
Verdadera. En la gestión de información puede resultar interesante resumir un subconjunto de datos en uno solo, de forma que se simplifique el conjunto de datos original y se genere una nueva variable que tenga un mayor valor, sea más fácil de controlar o podamos mejorar su disponibilidad.
En un nivel 0, tendríamos todos los datos de manera detallada, por ejemplo, personas que han accedido por minuto al establecimiento o una venta en la tpv. En un nivel superior añadiríamos la localización de la tienda a la venta o sumariamos la cantidad de personas que entran cada 30 minutos con el objetivo de dar valor a la propia información.
3. Pregunta
Seleccione la opción correcta:- El almacén de datos operacional guarda todos los datos históricos de la empresa para satisfacer las necesidades de sus analistas.Falso: El almacén de datos operacionalsiempre está actualizado, pero no contiene datos históricos.
- Utilizando el almacén de datos departamental siempre quedancubiertas todas las necesidades de información de la empresa.Falso: Construir un almacén de datos es muy costoso, además de tener unos requerimientos de rendimiento difíciles de conseguir. La solución para obtener untiempo de respuesta bajo es disponer de diferentes almacenes solo con información parcial del negocio (únicamente la parte que interese a un departamento o conjunto de personas) y no todas las necesidades de información de la empresa como indica el enunciado.
- El almacén de datos operacional y el corporativo se complementan.Verdadero: El corporativo guarda todos los datos históricos, pero no está actualizado siempre, y el operacional siempre está actualizado, pero no contiene datos históricos.
- Todas las anteriores son correctas.Falso: La c) es correcta
- Ninguna de las anteriores.Falso: La c) es correcta
- Las respuestas correctas son a) y la c)Falso: La c) es correcta
3.1 Respuesta
La respuesta es la
C)4. Pregunta
Seleccione la opción correcta:- Los almacenes de datos departamentales o Data Marts contieneninformación parcial del negocio.- Verdadero Construir un almacén de datos es muy costoso, además de tener unos requerimientos de rendimiento difíciles de conseguir. La solución para obtener un tiempo de respuesta bajo es disponer de diferentes almacenes solo con información parcial del negocio (únicamente la parte que interese a un departamento o conjunto de personas). Por este motivo, los almacenes departamentales únicamente contienen la información necesaria para el departamento.
- Los almacenes de datos departamentales están diseñados paraobtener un buen tiempo de respuesta ante las consultas de un ciertoconjunto de analistas.- Verdadero Al igual que en el caso anterior, puede estar enfocado a un conjunto de personas con una necesidades determinadas.
- Algunos ejemplos de Data Marts son: finanzas, marketing o ventas.- Verdadero Los departamentos de Marketing, Finanzas o Facturación (Ventas) utilizarán entidades con datos de clientes o productos. Es importante que se utilice la misma entidad de cara a la integridad de datos entre almacenes de diferentes departamentos. Estas entidades comunes se denominan dimensiones conformadas en los modelos dimensionales y son entidades del tipo clientes, productos, proveedores, cuentas que por ser críticas para el negocio son utilizadas por muchos departamentos
- Todas las anteriores.Verdadero: Tanto la a), b) y c) son correctas.
- Ninguna de las anteriores.Falso: Tanto la a), b) y c) son correctas.
- Las respuestas correctas son la b y la c.-Faslo La a) es correcta tambien.
4.1 Respuesta
La respuesta es la
D)
5. Pregunta
Seleccione la opción correcta:- Los almacenes de datos nunca contendrán entidades con informaciónsensible, como puede ser la de clientes, proveedores o productos.Falso: Los almacén de datos contendrán información clientes, proveedores o productos. Por ese motivo, y dependiendo de los datos almacenados, se utilizarán procesos o técnicas de seguridad como la encriptación de campos y credenciales de acceso.
- Resulta habitual que los datos maestros sean compartidos por variosalmacenes de datos departamentales.Verdadero: Es común que datos maestros sean compartidas por varios almacenes de datos departamentales y en ocasiones por sistemas no informacionales queacceden a estas entidades al ser el almacén de datos corporativo la imagenmás fiel de las mismas.
- Los procesos de gestión de la calidad de los datos maestros, suelenrevisar aspectos como: exactitud, integridad, consistencia y completitud.Verdadero: Directamente relacionadas con las actividades de MDM están los procesos de seguimiento de la calidad del dato que se implementarán sobre los datos maestros y que permitirán monitorizar su calidad, revisando aspectos tales como laexactitud, integridad, consistencia y completitud. Las entidades del almacén de datos terminan siendo entidades maestras que requieren una gestión especial de cara ala realización de actividades como pueden ser: consolidar toda la informaciónrelevante de la entidad que puede proceder de diferentes sistemas, asegurar lacalidad de esta información, el refresco de la misma y la sincronización conotros sistemas, entre otras actividades.
- Todas las anteriores son correctas.Falso Las respuestas b) y c) son correctas
- Ninguna de las anteriores es correcta. Falso Las respuestas b) y c) son correctas
- Las respuestas correctas son la b) y la c).Verdadro Las respuestas b) y c) son correctas
5.1 Respuesta
La respuesta
F) es la correcta.
6. Pregunta
Marca la/las opciones características de un Data Warehouse:- Está orientado al tema.Verdadero: Dado que no podemos conocer los requerimientos de los usuarios en el momento en que se construye el almacén de datos, la información nose estructura según su funcionalidad (el uso que se le vaya a dar), sinodividida por temas de interés.
- Contiene información histórica para analizar la evolución temporal delos datos.Verdadero: Es importante saber cuándo se produce un acontecimiento en el mundo real (la historicidad) en un Data Warehouse. Esto nos permite conocer cómo han evolucionado las cosas, para ver una película en lugar de una fotografía. Cualquier dato en el almacén de datos debe ir acompañado de su periodo de validez.
- La información puede ser volátil, para priorizar el rendimiento.Falso: Todo lo contrario, la no volatilidad nos muestra cuándo nos hemos enterado de los hechos y nos sirve para saber si un informe se hizo teniendo en cuenta unos datos u otros. La no volatilidad implica que no existan las operaciones de modificar y borrar propiamente dichas. Los datos no se borran o modifican, sino que se insertan correcciones y la fecha en la que se han registrado.
- Está orientado a la funcionalidad.Falso: Dado que no podemos conocer los requerimientos de los usuarios en el momento en que se construye el almacén de datos, la información nose estructura según su funcionalidad (el uso que se le vaya a dar), sinodividida por temas de interés.
- Permite integrar la información procedente de los diferentes sistemasde la empresa.Verdadero: Sabemos que los sistemas operacionales de las empresas son heterogéneos:funcionan sobre hardware y software diferentes, utilizan modelos de datosdistintos (unos orientados al objeto, otros relacionales, etc.) y presentan el negocio desde diferentes puntos de vista (finanzas, ventas, gestión de personal,etc.). Por lo tanto, el primer paso para ofrecer todos los datos a los analistasdebe ser la integración de todos estos sistemas, de modo que los analistas, apesar de que los datos provengan de fuentes distintas, lo vean como si provinieran de una única fuente. El sistema debe facilitar la resolución de heterogeneidades tanto de semántica como de sistema.
6.1 Respuesta
Las respuestas
a), b) y e) son correctas.
7. Pregunta
Referente a los tiempos de respuesta, marca la/las opcionescaracterísticas de un Data Warehouse:- Es importante optimizar los accesos para permitir unos tiempos de respuesta razonables.Verdadero: El tiempo de respuesta de las operaciones debe ser instantáneo cuando hablamos de bases de datos operacionales, debido a la frecuencia con la que se actualizan los datos. Por el contrario, en el caso de los almacenes de datos (Data Warehouse), este tiempo debe ser rápido, pero no necesariamente instantáneo. Entonces, esta afirmación es correcta ya que se debe optimizar los accesos creando almacenes de datos departamentales donde se almacenen los datos que necesite el analista o un usuario. De esta forma se facilita su acceso, puesto que todos estos se obtienen a partir del almacén de datos corporativo, y aumenta los tiempos de respuesta. El almacén de datos corporativo no es apropiado para los usuarios finales,porque está diseñado para gestionar e integrar grandes cantidades de datosque, junto con el exceso de usuarios, degradan el tiempo de respuesta.
- Debe proporcionar una respuesta inmediata.Falso: Lo contrario, los almacenes de datos (Data Warehouse) debe ser rápido, pero no necesariamente inmediato. Las operaciones en los almacenes de datos suelen ser consultas masivas que es imposible obtener de forma instantánea, pero sí deben estar en un tiempo razonable acorde con el trabajo del analista. Hay informes que realizan un conjunto de consultas masivas y que pueden ser planificados en diferido para que se ejecuten en background y puedan ser consultados posteriormente.
- El tiempo de respuesta no es relevante.Verdadero Las operaciones en los almacenes de datos suelen ser consultas masivas que es imposible obtener de forma instantánea, pero sí deben estar en un tiempo razonable acorde con el trabajo del analista. Hay informes que realizan un conjunto de consultas masivas y que pueden ser planificados en diferido para que se ejecuten en background y puedan ser consultados posteriormente.
- Es más relevante el tiempo de respuesta que la veracidad de los datosVerdadero Debido a su volumen de datos y a las técnicas deimplementación que se utilizan, el almacén de datos corporativo (y, por lotanto, los departamentales que se actualizan a partir de este) no se puede tener constantemente actualizado (solo se suele actualizar durante las noches o los fines de semana). Por otro lado, sus usuarios tampoco lo requieren, puesto que están más interesados en los datos históricos que en los actuales. Es más interesante el histórico que la inmediatez.
- Es admisible que el usuario reciba una respuesta de timeout si una consulta satura el servidor de base de datos.Falso. Una consulta nunca puede saturar el servidor de base de datos de un Data wareHouse. Se puede dejar la consulta en Background o crear una base de datos departamental pero no es admisible un timeout.
7.1 Respuesta
a) c) d)8. Pregunta
Determine, para cada una de las siguientes opciones, si escaracterística de un almacén de datos departamental, operacional ocorporativo.- Son volátiles, y están orientados a las aplicaciones o la funcionalidad.Almacén de datos operacional: Debido al volumen de datos y a las técnicas de implementación que se utilizan, el almacén de datos corporativo (y, por lo tanto, los departamentales que se actualizan a partir de este) no se puede tener constantemente actualizado (solo se suele actualizar durante las noches o los fines de semana). El almacén de datos operacional (Operational Data Store) renunciamos a tener datos históricos y disponemos de un repositorio volátil. Está orientado al tema e integrado como cualquier almacén de datos, pero en este caso no contiene ningún tipo de información temporal.
- Se plantea su diseño para obtener datos de manera inmediata,obteniendo información del almacén de datos corporativo.Almacén de datos departamental: Construir un almacén de datos es muy costoso, además de tener unos requerimientos de rendimiento difíciles de conseguir. La solución para obtener un tiempo de respuesta bajo es disponer de diferentes almacenes solo con información parcial del negocio (únicamente la parte que interese a un departamento o conjunto de personas). Estos almacenes se llama Almacén de datos departamental y está diseñado para obtener un buen tiempo de respuesta ante las consultas de un conjunto de analistas. De esta forma se facilita su acceso, puesto que todos estos se obtienen a partir del almacén de datos corporativo, y aumenta los tiempos de respuesta.
- Sirven, entre otras cosas, para solucionar problemas de integración y de multiplicidad de datos.Almacén de datos corporativo: Por sus características distintas en cuanto a estructura y organización, los datos obtenidos en un almacén operacional no se pueden utilizar directamente en el almacén de datos, sino que se tienen que adaptar a sus requerimientos en un proceso de transformación y integración.
- Almacena una imagen actualizada de los datos de la organización.Almacén de datos operacional: Los usuarios que utilizan este almacén necesitan los datos integrados y que los quieran completamente actualizados.
- Almacena una película formada a partir de las diferentes imágenes de los datos. Es decir, la historia de los datosAlmacén de datos coperativo: Este tipo de necesidades para reflejar tendencias, evoluciones, hechoshistóricos en el negocio y posibilidades futuras son factores que en la altadirección de las instituciones o empresas tiene que manipular de unamanera habitual y que ha propiciado la aparición en el mercado de herramientas de ayuda en la toma de decisiones.
9. Pregunta
Indica qué tipos de datos podemos encontrar según su estructura, indica algún ejemplo de cada uno de ellos y propón un sistemapara almacenarlos.En el caso de las bases de datos operacionales, los datos tendrán una estructura relacional, en la que se da mucha importancia a la estabilidad. Este hecho representa tener bases de datos estáticas, que no cambian con frecuencia su estructura.
En cambio, en los almacenes de datos habrá una visión multidimensional y a la vez serán muy dinámicos: estos deben de adaptarse rápidamente a las necesidades del negocio para ser útiles en los procesos de toma de decisiones.
En el diseño del almacén de datos, hay que tener presente el componente tiempo, mientras que en las bases de datos operacionales no es necesario
En el diseño de las bases de datos operacionales, tiene que ser más importante que el acceso sea inmediato a un dato en concreto, mientras que en los almacenes de datos suelen predominar las consultas masivas de datos.
Otra diferencia importante es el hecho de que el diseño de las bases de datos convencionales tiene que ser normalizado, mientras que en los almacenes dedatos es mejor la desnormalización, ya que favorece la rapidez de las consultas.
En cuanto a la integridad de la información vemos que las bases de datos operacionales usualmente garantizan la integridad definiendo restricciones en base de datos (claves primarias y foráneas), mientras que, en los almacenes de datos, nos encontramos diseños en los que la integridad se garantiza en el proceso de carga (actualizaciones masivas) y no se definen restricciones en la base de datos de destino para mejorar el rendimiento de la actualización.
Un ejemplo de base de datos operacional puede ser una base de datos Mysql o SqlServer que tienen como principales características su inmediatez en las consultas y sus diseños optimos para entornos no distribuidos. En cambio, una base datos NoSQL como MongoDb o Cassandra seria perfecta para un almacén de datos ya que son distribuidas, consumen pocos recursos y pueden manejar gran cantidad de datos.
Las bases de datos SQL están optimizadas para almacenar entidades fijas, conocidas y con una estructura clara mientras que las NoSQL tienen la capacidad de adaptar su estructura a nuevas necesidades de forma ágil y simple.
10. Pregunta
Describe brevemente como el cambio en el grado de agregación puede afectar a la transformación de los datos.El nivel de agregación permite el cúmulo de los datos. En un nivel 0, tendríamos todos los datos de manera detallada, como los que nos encontraríamos en las bases de datos operacionales. En cambio, en el almacén de datos se suelen dar distintos niveles.
En los almacenes de datos, las consultas suelen ser imprevistas, es decir, no tienen una planificación previa. La gran variedad de posibilidades que encontramos hace imposible prever cuáles serán las necesidades de los usuarios finales en el proceso de desarrollo. Además, estas consultas están orientadas a áreas de interés del negocio que con frecuencia son cambiantes. Dentro de esta variedad de posibilidades sí es posible identificar entidades, agregaciones o cruces de uso frecuente de acuerdo con los cuales podemos definir vistas o tablas de bases de datos que contengan preagregados, índices en las tablas u otro tipo de estrategias de optimización.
Modificar el grado de agregación puede suponer que, el coste computacional de realizar esa operación sea asumido por el usuario o el analista lo que supondría un aumento en el tiempo de respuesta del empleado. Otra consecuencia es la perdida de la integridad entre tablas o vistas, ya que reducir el nivel de agregación puede suponer perder datos que lo conformasen.