Extraido de: Ralph Kimball, Margy Ross. (2002). The Data Warehouse Toolkit. Second Edition. John Wiley & Sons, Inc.
Capitulo 11: Transport
Los temas tratados son:
Extraido de: Ralph Kimball, Margy Ross. (2002). The Data Warehouse Toolkit. Second Edition. John Wiley & Sons, Inc.
Capitulo 11: Transport
El departamento de mercadeo de la aerolínea quiere analizar la actividad de vuelos de cada miembro de su programa “viajero frecuente”. El departamento esta interesado en ver que vuelos toman los viajeros frecuentes de la compañía, que aviones toman, que tarifa base pagan, cada cuanto la renuevan, cuanto ganan y redimen sus millas de viajero frecuente, si responden a tarifas especiales de promoción, cuando dura su estadía, y que proporción de viajeros frecuentes tienen estado titanio, platino, oro o aluminio.
Como es usual, trabajamos a través del proceso de cuatro-pasos para abordar el diseño del esquema de viajero frecuente. Para este caso de estudio, los procesos del negocio serían la actual actividad de vuelo. No nos estamos centrando en la reservación o los datos de tickets que no resultaron en el abordaje de un viajero frecuente. El equipo de DW tomará esos otros recursos de datos en fases posteriores.
Cuando se habla de granulidad, encontramos una situación en este caso donde presentamos con múltiples niveles el potencial de la granulidad de la tabla de hechos. Cada uno de estos niveles de granulidad tienen diferentes métricas asociadas a ellos.
En el máximo nivel de granularidad, la aerolínea captura datos al nivel de tramo. Un tramo representa un vuelo saliendo de un aeropuerto y aterrizando en otro sin ninguna parada intermedia. La capacidad de planeación y análisis de la programación de vuelos se ven afectados en este nivel discreto de información ya que ellos son hábiles para mirar el número de asientos y calcular factores de carga por tramo. También podemos incluir hechos respecto a la duración del vuelo del tramo, así como el número de minutos de retraso en el despegue y llegada. Tal vez haya hasta una dimensión para facilitar identificar el tiempo de llegada.
A continuación, análisamos la actividad de vuelo por viaje. El viaje provee un retrato preciso de la demanda de los clientes. (*) En nuestro anterior ejemplo, asumamos que el vuelo desde SF a MP requirió que el viajero cambiara de vuelo en DEN. En este caso el vuelo desde SF a MP implicaría dos segmentos correspondiente a los dos vuelos involucrados. En realidad, el pasajero sólo solicitó ir de SF a MP; el hecho de que él o ella necesite parar en DN fue simplemente un mal necesario pero naturalmente no fue solicitado. Por esta razón, los analistas de ventas y publicidad están interesados en los datos a nivel de viaje.
Finalmente, la aerolínea recopila datos para el itinerario (plan de viaje), el cual es equivalente al total de tiquetes de la aerolínea o número de reservaciones confirmadas.
El equipo de la DW y los representantes del negocio deciden empezar en el grano a nivel de segmento para satisfacer la necesidad de mejorar el análisis de viajero frecuente. Esto representa el nivel más bajo de los datos con significativa métrica para el departamento de publicidad. El E-DW inevitablemente abordará los datos más granulados nivel-tramo para los proyectistas de capacidad y la programación de vuelos al mismo tiempo. Las dimensiones de confirmadas se construyeron durante esta primera iteración desde luego fueron apoyadas en ese tiempo.
Habrá una fila en la tabla de hecho para cada pase de abordaje (boarding pass) recaudada de los viajeros frecuentes. La dimensionalidad asociada con este dato es muy extensa, como se ilustra en la Figura 11.1. Si tuvimos en cambio seleccionado el grano viaje como evento de multiple segmento, todos los detalles específicos relativos al vuelo, precio base del pasaje, clase, y otros factores de cada vuelo deberían ser suprimidos.
Vemos que el esquema usa la técnica rol-jugador extensamente. La fecha múltiple, hora, y dimensión aeropuerto enlaza a vistas de un único subyacente fecha física, hora, y tabla dimensión aeropuerto, respectivamente, como se discutió en el capitulo 5.
Fig 1: Esquema inicial de actividad de vuelo a nivel-segmento
Extraido de: Ralph Kimball, Margy Ross. (2002). The Data Warehouse Toolkit. Second Edition. John Wiley & Sons, Inc.
La dimensión viajero frecuente es un jardín variado de dimensión cliente con todos los atributos tomados de nuestros más valiosos viajeros. Interesantemente, en este caso los viajeros frecuentes se motivan para ayudarte a mantener esta dimensión fielmente ya que ellos quieren asegurarse que reciban crédito por millas de manera apropiada. Para una gran aerolínea, esta dimensión diez millones de filas. Mercadeo quiere analizar actividad por hilera (fila) de viajeros frecuentes, lo cual puede cambiar durante el transcurso de un año. Adicionalmente, aprendimos durante el proceso de requerimientos que los usuarios están interesados en partir y barajar basados en los aeropuertos donde residen los viajeros y si ellos pertenecen al club del aeropuerto de la aerolínea. Por lo tanto, optamos por crear una mini-dimensión perfil viajero frecuente, como se discutió en el capitulo 6, con una fila para cada combinación única de la élite de viajero frecuente, aeropuerto donde reside el viajero, y estado de la afiliación al club.
La dimensión vuelo contiene información de cada vuelo, tales como el avión usado. Aunque hay un origen y destino especifico asociados con cada vuelo, nombramos estas claves fuera de la dimensión aeropuerto separadamente para simplificar la vista de usuario de los datos y generamos acceso más eficiente.
La clase de servicio describe si el pasajero se sentó en particular, negocio, o primera clase. La dimensión de tarifa básica describe los términos alrededor del precio del tíquet. Se podría identificar si es tarifa completa, tarifa sin restricción, una tarifa adquirida a 21 días con cambios y multas de cancelación, o tarifas con 10 por ciento de descuento por promoción especial disponibles para tiquetes adquiridos en el sitio web de la compañía durante un periodo de tiempo. En este caso de estudio decidimos no separar la noción de promoción de la de tarifa base. Después de entrevistar a los usuario del negocio (de la aerolínea), concluimos que la tarifa base y promoción están relacionadas y que no tiene sentido separarlas en los datos.
La dimensión canal de ventas identifica como fueron adquiridos los tiquetes, si fue a través de un agencia de viajes, directamente de linea telefónica gratuita de la aerolínea o de la taquilla de ciudad, del sitio web de la aerolínea, o por cualquier proveedor de viajes por Internet. Adicionalmente, varios números de servicio están asociados con los datos de actividad de vuelo, incluyendo el número de itinerario, número de tiquete, y número de secuencia del segmento.
Los hechos tomados en la granularidad a nivel segmento incluye el ingreso total del segmento, millas de vuelo por segmento, y millas otorgadas por segmento (en esos casos donde un mínimo número de millas se otorga independientemente de la distancia del vuelo). Para monitorear el servicio al cliente, también incluimos hechos tales como los minutos de atraso en el despegue y llegada, lo cual podría ser resumido en el caso de segmento multi-tramo.
A pesar del poderoso framework dimensional que hemos diseñado, somos incapaces de responder fácilmente una de las más importante preguntas sobre nuestros VF's, particularmente, a que lugar están viajando ? El grano segmento cubre la verdadera naturaleza del viaje. Si retomáramos todos los segmentos del viajes de la aerolínea y secuenciarlos por número de segmento, es todavía casi imposible diferenciar los puntos del inicio y fin del viaje. Muchos itinerarios completos inician y finalizan en el mismo aeropuerto. Si una escala(parada) prolongada fuera criterio para catalogarlo como destino de un viaje, se requeriría de amplios e intrincados procesos donde tratamos de resumir un número de viajes por criterio de escala(parada).
La respuesta es introducir dos dimensiones mas rol-jugador aeropuerto: origen del viaje y destino del viaje, mientras se mantiene el grano a nivel del segmento vuelo. Esto esta determinado durante la extracción de datos observando en el tiquete alguna escala(parada) de más de cuatro horas, el cual es una definición oficial de la aerolínea escala. El esquema mejorado se ve en la figura 11.2. Necesitaremos tener algunas precauciones cuando extraigamos datos de un viaje en este esquema. Algunas de las dimensiones tales como tarifa básica o clase de servicio, no aplican a nivel de viaje. De otra manera, puede ser útil ver cuantos viajes desde SF a MP incluyeron en un segmento una tarifa sin restricción.
Fig 2: Esquema actvidad de vuelo a nivel-viaje
Extraido de: Ralph Kimball, Margy Ross. (2002). The Data Warehouse Toolkit. Second Edition. John Wiley & Sons, Inc.
Adicionalmente, unir segmentos dentro de viajes como en la fig. 11.2 demuestra si los usuario del negocio están constantemente buscando información a nivel de viaje, en ves de buscar por segmentos, podemos estar tentados a crear una tabla de hechos agregada a nivel de viaje. Algunas de las anteriores dimensiones, tales como clase de servicio, tarifa básica, y obviamente vuelo no deberían ser aplicables. Los hechos incluirían tales métricas como ingreso total en viajes y hechos adicionales que aparecerían sólo en este viaje complementario de la tabla extraida, tales como número de segmentos en le viaje.
Extraido de: Ralph Kimball, Margy Ross. (2002). The Data Warehouse Toolkit. Second Edition. John Wiley & Sons, Inc.
Capitulo 11: Transport
Fig 3: Esquema exportador-fleteador
Extraido de: Ralph Kimball, Margy Ross. (2002). The Data Warehouse Toolkit. Second Edition. John Wiley & Sons, Inc.
Fig 4: Esquema de hospedaje (Hotel stay) del servicio de viajes
Extraido de: Ralph Kimball, Margy Ross. (2002). The Data Warehouse Toolkit. Second Edition. John Wiley & Sons, Inc.
Extraido de: Ralph Kimball, Margy Ross. (2002). The Data Warehouse Toolkit. Second Edition. John Wiley & Sons, Inc.
Capitulo 11: Transport
Extraido de: Ralph Kimball, Margy Ross. (2002). The Data Warehouse Toolkit. Second Edition. John Wiley & Sons, Inc.
Fig 5: Filas de la dimensión clase, combinada
Extraido de: Ralph Kimball, Margy Ross. (2002). The Data Warehouse Toolkit. Second Edition. John Wiley & Sons, Inc.
Extraido de: Ralph Kimball, Margy Ross. (2002). The Data Warehouse Toolkit. Second Edition. John Wiley & Sons, Inc.
Capitulo 11: Transport
Fig 6: Calendario pais-especifico
Extraido de: Ralph Kimball, Margy Ross. (2002). The Data Warehouse Toolkit. Second Edition. John Wiley & Sons, Inc.
Fig 7: Tabla de hechos con hora del dia como hecho
Fig 8: Zonas horarias de fecha/Hora
Gracias !!