Diseño y construcción del data warehouse. Preguntas
1. Pregunta 1
Indique si la siguiente afirmación es verdadera o falsa y justifiquesu respuesta:El Data Warehouse tiene como uno de sus principales objetivos ser unrepositorio central de información corporativa que puede proveer variossistemas. Por ello, algunas de sus funciones son consolidar yhomogeneizar la información proveniente de los diferentes sistemas de lacompañía, además de depurar y limpiar los datos, asegurando su calidad.
1.1 Respuesta
La afirmación es Verdadera. La información importante para un negocio normalmente se encuentra dispersa entre diferentes sistemas, bases de datos o aplicaciones. Este hecho es debido a la dificultad para elegir la metodología más adecuada para cada caso, cada proyecto, por sus características intrínsecas, requiere distintas formas de gestión. Por ejemplo, un cliente se gestiona de forma diferente en un programa de facturación que en un sistema de atención al cliente. El Data Warehouse tiene como uno de sus principales objetivos el ser un repositorio central de información corporativa que puede provenir de diversos sistemas. Estos proyectos requieren un conocimiento avanzado de dónde están los datos y qué quieren decir. Es necesario la construcción de una nueva arquitectura intermedia, que debe ser permanente y a la vez flexible, y un conocimiento de los productos a veces muy sofisticados y a la vez poco maduros sobre los que se forman las nuevas plataformas. Un ejemplo sería un visor de la evolución comercial para un directivo de una empresa cerámica. Este directivo desea conocer mediante una plataforma web el número de incidencias que ha habido entre los clientes, que tipo de acciones han llevado a cabo, donde están situados nuestros clientes, quien ha realizado las gestiones con los clientes, que ofertas han escogido más, que tarifas han generado más interés, etc. Para realizar este visor necesitare obtener información de diferentes plataformas de la empresa para después gestionarla y darle un valor en la pantalla. Para ello deberá existir un contacto directo con los diferentes clientes internos de la aplicación como son atención al público, facturación, gestión comercial, etc. que me proporcionarán y validarán la información que gestionan. Este visor debería obtener la información del Data Warehouse donde ha obtenido la información proveniente de los diferentes sistemas, la ha unificado, depurado y proporcionado al visor de forma que pueda interpretarla correctamente.2. Pregunta
Indique si la siguiente afirmación es verdadera o falsa y justifique su respuesta:El nivel de agregación permite la acumulación de los datos, de maneraque en un nivel 0 tendríamos del máximo nivel de detalle, y en nivelessuperiores iríamos agregando los datos por alguna dimensión (calendario,producto, geografía, etc.) Este nivel de agregación suele ser único ybastante bajo en las bases de datos operacionales, mientras que en elalmacén de datos solemos disponer de la misma información condiferentes niveles de agregación.
2.1 Respuesta
Es Verdadera. En la gestión de información puede resultar interesante resumir un subconjunto de datos en uno solo, de forma que se simplifique el conjunto de datos original y se genere una nueva variable que tenga un mayor valor, sea más fácil de controlar o podamos mejorar su disponibilidad. En un nivel 0, tendríamos todos los datos de manera detallada, por ejemplo, personas que han accedido por minuto al establecimiento o una venta en la tpv. En un nivel superior añadiríamos la localización de la tienda a la venta o sumariamos la cantidad de personas que entran cada 30 minutos con el objetivo de dar valor a la propia información.3. Pregunta
Seleccione la opción correcta:- El almacén de datos operacional guarda todos los datos históricos de la empresa para satisfacer las necesidades de sus analistas.Falso: El almacén de datos operacionalsiempre está actualizado, pero no contiene datos históricos.
- Utilizando el almacén de datos departamental siempre quedancubiertas todas las necesidades de información de la empresa.Falso: Construir un almacén de datos es muy costoso, además de tener unos requerimientos de rendimiento difíciles de conseguir. La solución para obtener untiempo de respuesta bajo es disponer de diferentes almacenes solo con información parcial del negocio (únicamente la parte que interese a un departamento o conjunto de personas) y no todas las necesidades de información de la empresa como indica el enunciado.
- El almacén de datos operacional y el corporativo se complementan.Verdadero: El corporativo guarda todos los datos históricos, pero no está actualizado siempre, y el operacional siempre está actualizado, pero no contiene datos históricos.
- Todas las anteriores son correctas.Falso: La c) es correcta
- Ninguna de las anteriores.Falso: La c) es correcta
- Las respuestas correctas son a) y la c)Falso: La c) es correcta
3.1 Respuesta
La respuesta es la C)4. Pregunta
Seleccione la opción correcta:- Los almacenes de datos departamentales o Data Marts contieneninformación parcial del negocio.- Verdadero Construir un almacén de datos es muy costoso, además de tener unos requerimientos de rendimiento difíciles de conseguir. La solución para obtener un tiempo de respuesta bajo es disponer de diferentes almacenes solo con información parcial del negocio (únicamente la parte que interese a un departamento o conjunto de personas). Por este motivo, los almacenes departamentales únicamente contienen la información necesaria para el departamento.
- Los almacenes de datos departamentales están diseñados paraobtener un buen tiempo de respuesta ante las consultas de un ciertoconjunto de analistas.- Verdadero Al igual que en el caso anterior, puede estar enfocado a un conjunto de personas con una necesidades determinadas.
- Algunos ejemplos de Data Marts son: finanzas, marketing o ventas.- Verdadero Los departamentos de Marketing, Finanzas o Facturación (Ventas) utilizarán entidades con datos de clientes o productos. Es importante que se utilice la misma entidad de cara a la integridad de datos entre almacenes de diferentes departamentos. Estas entidades comunes se denominan dimensiones conformadas en los modelos dimensionales y son entidades del tipo clientes, productos, proveedores, cuentas que por ser críticas para el negocio son utilizadas por muchos departamentos
- Todas las anteriores.Verdadero: Tanto la a), b) y c) son correctas.
- Ninguna de las anteriores.Falso: Tanto la a), b) y c) son correctas.
- Las respuestas correctas son la b y la c.-Faslo La a) es correcta tambien.
4.1 Respuesta
La respuesta es la D)5. Pregunta
Seleccione la opción correcta:- Los almacenes de datos nunca contendrán entidades con informaciónsensible, como puede ser la de clientes, proveedores o productos.Falso: Los almacén de datos contendrán información clientes, proveedores o productos. Por ese motivo, y dependiendo de los datos almacenados, se utilizarán procesos o técnicas de seguridad como la encriptación de campos y credenciales de acceso.
- Resulta habitual que los datos maestros sean compartidos por variosalmacenes de datos departamentales.Verdadero: Es común que datos maestros sean compartidas por varios almacenes de datos departamentales y en ocasiones por sistemas no informacionales queacceden a estas entidades al ser el almacén de datos corporativo la imagenmás fiel de las mismas.
- Los procesos de gestión de la calidad de los datos maestros, suelenrevisar aspectos como: exactitud, integridad, consistencia y completitud.Verdadero: Directamente relacionadas con las actividades de MDM están los procesos de seguimiento de la calidad del dato que se implementarán sobre los datos maestros y que permitirán monitorizar su calidad, revisando aspectos tales como laexactitud, integridad, consistencia y completitud. Las entidades del almacén de datos terminan siendo entidades maestras que requieren una gestión especial de cara ala realización de actividades como pueden ser: consolidar toda la informaciónrelevante de la entidad que puede proceder de diferentes sistemas, asegurar lacalidad de esta información, el refresco de la misma y la sincronización conotros sistemas, entre otras actividades.
- Todas las anteriores son correctas.Falso Las respuestas b) y c) son correctas
- Ninguna de las anteriores es correcta. Falso Las respuestas b) y c) son correctas
- Las respuestas correctas son la b) y la c).Verdadro Las respuestas b) y c) son correctas
5.1 Respuesta
La respuesta F) es la correcta.6. Pregunta
Marca la/las opciones características de un Data Warehouse:- Está orientado al tema.Verdadero: Dado que no podemos conocer los requerimientos de los usuarios en el momento en que se construye el almacén de datos, la información nose estructura según su funcionalidad (el uso que se le vaya a dar), sinodividida por temas de interés.
- Contiene información histórica para analizar la evolución temporal delos datos.Verdadero: Es importante saber cuándo se produce un acontecimiento en el mundo real (la historicidad) en un Data Warehouse. Esto nos permite conocer cómo han evolucionado las cosas, para ver una película en lugar de una fotografía. Cualquier dato en el almacén de datos debe ir acompañado de su periodo de validez.
- La información puede ser volátil, para priorizar el rendimiento.Falso: Todo lo contrario, la no volatilidad nos muestra cuándo nos hemos enterado de los hechos y nos sirve para saber si un informe se hizo teniendo en cuenta unos datos u otros. La no volatilidad implica que no existan las operaciones de modificar y borrar propiamente dichas. Los datos no se borran o modifican, sino que se insertan correcciones y la fecha en la que se han registrado.
- Está orientado a la funcionalidad.Falso: Dado que no podemos conocer los requerimientos de los usuarios en el momento en que se construye el almacén de datos, la información nose estructura según su funcionalidad (el uso que se le vaya a dar), sinodividida por temas de interés.
- Permite integrar la información procedente de los diferentes sistemasde la empresa.Verdadero: Sabemos que los sistemas operacionales de las empresas son heterogéneos:funcionan sobre hardware y software diferentes, utilizan modelos de datosdistintos (unos orientados al objeto, otros relacionales, etc.) y presentan el negocio desde diferentes puntos de vista (finanzas, ventas, gestión de personal,etc.). Por lo tanto, el primer paso para ofrecer todos los datos a los analistasdebe ser la integración de todos estos sistemas, de modo que los analistas, apesar de que los datos provengan de fuentes distintas, lo vean como si provinieran de una única fuente. El sistema debe facilitar la resolución de heterogeneidades tanto de semántica como de sistema.
6.1 Respuesta
Las respuestas a), b) y e) son correctas.7. Pregunta
Referente a los tiempos de respuesta, marca la/las opcionescaracterísticas de un Data Warehouse:- Es importante optimizar los accesos para permitir unos tiempos de respuesta razonables.Verdadero: El tiempo de respuesta de las operaciones debe ser instantáneo cuando hablamos de bases de datos operacionales, debido a la frecuencia con la que se actualizan los datos. Por el contrario, en el caso de los almacenes de datos (Data Warehouse), este tiempo debe ser rápido, pero no necesariamente instantáneo. Entonces, esta afirmación es correcta ya que se debe optimizar los accesos creando almacenes de datos departamentales donde se almacenen los datos que necesite el analista o un usuario. De esta forma se facilita su acceso, puesto que todos estos se obtienen a partir del almacén de datos corporativo, y aumenta los tiempos de respuesta. El almacén de datos corporativo no es apropiado para los usuarios finales,porque está diseñado para gestionar e integrar grandes cantidades de datosque, junto con el exceso de usuarios, degradan el tiempo de respuesta.
- Debe proporcionar una respuesta inmediata.Falso: Lo contrario, los almacenes de datos (Data Warehouse) debe ser rápido, pero no necesariamente inmediato. Las operaciones en los almacenes de datos suelen ser consultas masivas que es imposible obtener de forma instantánea, pero sí deben estar en un tiempo razonable acorde con el trabajo del analista. Hay informes que realizan un conjunto de consultas masivas y que pueden ser planificados en diferido para que se ejecuten en background y puedan ser consultados posteriormente.
- El tiempo de respuesta no es relevante.Verdadero Las operaciones en los almacenes de datos suelen ser consultas masivas que es imposible obtener de forma instantánea, pero sí deben estar en un tiempo razonable acorde con el trabajo del analista. Hay informes que realizan un conjunto de consultas masivas y que pueden ser planificados en diferido para que se ejecuten en background y puedan ser consultados posteriormente.
- Es más relevante el tiempo de respuesta que la veracidad de los datosVerdadero Debido a su volumen de datos y a las técnicas deimplementación que se utilizan, el almacén de datos corporativo (y, por lotanto, los departamentales que se actualizan a partir de este) no se puede tener constantemente actualizado (solo se suele actualizar durante las noches o los fines de semana). Por otro lado, sus usuarios tampoco lo requieren, puesto que están más interesados en los datos históricos que en los actuales. Es más interesante el histórico que la inmediatez.
- Es admisible que el usuario reciba una respuesta de timeout si una consulta satura el servidor de base de datos.Falso. Una consulta nunca puede saturar el servidor de base de datos de un Data wareHouse. Se puede dejar la consulta en Background o crear una base de datos departamental pero no es admisible un timeout.
7.1 Respuesta
a) c) d)8. Pregunta
Determine, para cada una de las siguientes opciones, si escaracterística de un almacén de datos departamental, operacional ocorporativo.- Son volátiles, y están orientados a las aplicaciones o la funcionalidad.Almacén de datos operacional: Debido al volumen de datos y a las técnicas de implementación que se utilizan, el almacén de datos corporativo (y, por lo tanto, los departamentales que se actualizan a partir de este) no se puede tener constantemente actualizado (solo se suele actualizar durante las noches o los fines de semana). El almacén de datos operacional (Operational Data Store) renunciamos a tener datos históricos y disponemos de un repositorio volátil. Está orientado al tema e integrado como cualquier almacén de datos, pero en este caso no contiene ningún tipo de información temporal.
- Se plantea su diseño para obtener datos de manera inmediata,obteniendo información del almacén de datos corporativo.Almacén de datos departamental: Construir un almacén de datos es muy costoso, además de tener unos requerimientos de rendimiento difíciles de conseguir. La solución para obtener un tiempo de respuesta bajo es disponer de diferentes almacenes solo con información parcial del negocio (únicamente la parte que interese a un departamento o conjunto de personas). Estos almacenes se llama Almacén de datos departamental y está diseñado para obtener un buen tiempo de respuesta ante las consultas de un conjunto de analistas. De esta forma se facilita su acceso, puesto que todos estos se obtienen a partir del almacén de datos corporativo, y aumenta los tiempos de respuesta.
- Sirven, entre otras cosas, para solucionar problemas de integración y de multiplicidad de datos.Almacén de datos corporativo: Por sus características distintas en cuanto a estructura y organización, los datos obtenidos en un almacén operacional no se pueden utilizar directamente en el almacén de datos, sino que se tienen que adaptar a sus requerimientos en un proceso de transformación y integración.
- Almacena una imagen actualizada de los datos de la organización.Almacén de datos operacional: Los usuarios que utilizan este almacén necesitan los datos integrados y que los quieran completamente actualizados.
- Almacena una película formada a partir de las diferentes imágenes de los datos. Es decir, la historia de los datosAlmacén de datos coperativo: Este tipo de necesidades para reflejar tendencias, evoluciones, hechoshistóricos en el negocio y posibilidades futuras son factores que en la altadirección de las instituciones o empresas tiene que manipular de unamanera habitual y que ha propiciado la aparición en el mercado de herramientas de ayuda en la toma de decisiones.