Como parte del servicio de datos de transporte gratuito, Transport for London (TFL) lanzan datos en viajes tomados utilizando sus ciclos Santander, también conocidos como "Boris Bikes". Los datos se remontan a enero de 2015, que muestran información sobre las ubicaciones de inicio y finalización del viaje, junto con la duración y la hora del día. Al combinar esta información con las coordenadas de cada punto de alquiler de ciclo, predije el viaje más probable realizado para cada combinación de inicio/final, así como para observar el impacto de los golpes de tubo en el uso de la bicicleta.
Para obtener todos los detalles técnicos, consulte el cuaderno de Python en mi Github aquí.
TFL aloja todos los datos del ciclo sin procesar en su sitio web de datos de ciclismo como una serie de archivos CSV. Además, también tienen una alimentación de datos XML en vivo que muestra el estado de cada punto de bicicleta en Londres, produciendo información como sus coordenadas, número de muelles libres, capacidad total, etc.
Para aquellos que desconocen, a continuación hay un mapa de todas las estaciones de alquiler de ciclo en todo Londres.
También he generado una versión interactiva elegante de esta trama en Bokeh: haga clic aquí para verlo (son 30 MB+, por lo que tarda un poco en cargarse). Puede zoom/desplazarse con esta versión, y también le indica el nombre y la capacidad de cada ubicación.
Dado que hay 777 estaciones en Londres (al menos al momento de escribir), esto permite 777 * 776 = 602,952 Combinaciones de viaje posibles si ignoramos a los que comienzan y terminan en la misma estación. Mirando mi conjunto de datos, encuentro alrededor de 400k rutas únicas realmente tomadas.
Para trazar cada ruta, necesitaba hacer algunas suposiciones sobre cómo se realizó cada viaje, ya que no está disponible información sobre la ruta real tomada. Para simplificar, he asumido que para cada emparejamiento de inicio/finalización, cada ciclista tomó la ruta más rápida según lo prescrito por un planificador de ruta en línea. Para que esta suposición sea un poco más realista, también reduje mi conjunto de datos para solo trazar rutas que toman hasta el doble de tiempo que el planificador de ruta esperado, es decir, ignorar los viajes donde el ciclista claramente tomó otra ruta (y quizás algunas personas terriblemente lentas ).
Mientras que Google ofrece una API de instrucciones de ciclismo, 400,000 solicitudes están más allá de su límite de uso de API gratuito, y mucho más de lo que estoy dispuesto a pagar. En cambio, opté por configurar mi propio servidor OSRM, que podría consultar tantas veces como quisiera. Los detalles de cómo configurar el servidor se pueden encontrar en el GitHub de Ilia.
Una vez que calculé los puntos de referencia para cada ruta, trazé las rutas resultantes de más de 13 millones de rutas usando DataShader, agregando cada ruta por la cantidad de veces que se tomó (es decir, más gruesa es la línea, más personas usaban esa ruta). La trama completa se puede ver a continuación:
Primero, veamos las estaciones de bicicletas más populares de Londres. Definición de un solo flujo como alguien que toma o atrae una bicicleta una estación, las mejores estaciones de bicicletas en Londres son:
Belgrove Street, Kings Cross es el más popular entre los flujos totales de 314,729 (157,025 entradas y 157,704 salidas) en todo el conjunto de datos. El menos popular, por otro lado, Bevington Road, North Kensington, con 1,131 flujos totales (515 entradas y 616 salidas), sin embargo, esta estación solo se instaló el 4 de julio de 2016.
Una forma alternativa de clasificar las estaciones es a través del algoritmo de PageRank de Google. La teoría subyacente detrás del algoritmo de PageRank es que si una estación está frecuentemente vinculada a través de otras estaciones "importantes", entonces el rango de esa estación aumentará:
Curiosamente, los resultados difieren bastante de la clasificación simplemente en función del número de flujos. Esto implicaría que, si bien las diversas estaciones en el hilo pueden no tener el mayor número de flujos, con frecuencia se viajan a través de otras estaciones "importantes", así que se clasifican altamente.
Si vives en Londres, probablemente hayas notado las camionetas que mueven las bicicletas durante el día, tomando bicicletas de estaciones completas y redistribuyendo las estaciones vacías. Al observar la diferencia entre las entradas y las salidas, puedo mostrar las estaciones que se ven más afectadas por este desajuste y, por lo tanto, requieren la mayor redistribución.
Al filtrar el conjunto de datos para solo mirar los días de semana en la mañana o la noche, también puedo mostrar los patrones de viaje de los londinenses:
En lo anterior, el rojo representa una estación con más bicicletas que salen que entrando (salidas> entradas), mientras que el verde representa lo contrario. Como se esperaba, en la mañana las personas viajan al centro desde los suburbios, mientras que lo contrario ocurre por la noche. Canary Wharf también es bastante notable en el este.
Aquí se puede ver una versión interactiva de este gráfico: nuevamente, esta es de 30 MB+, por lo que tardará un tiempo en cargarse.
El 8 de julio de 2015, hubo una huelga de tubos de Londres que ocurrió desde 1830 en la noche hasta 2130 del día siguiente. Si bien afortunadamente tenía la opción de trabajar desde casa ese día, muchos londinenses tuvieron que encontrar medios alternativos de transporte para llegar al trabajo. Al mirar este conjunto de datos, puedo tratar de ver si alguno de ellos eligió el ciclo para trabajar.
Como una simple primera métrica, el siguiente Barchart muestra el número de viajes realizados entre el 9 de junio y el 9 de agosto de 2015:
Versión interactiva aquí
Hay un claro aumento en los viajes tomados el 9 de julio. El segundo pico? Otro golpe de tubo.
Mirando la mañana del jueves 9 de julio entre las 0700 y 1000, hubo 16.501 viajes en la capital. El mismo período de tiempo los jueves anteriores y después de la huelga tuvo 9,111 y 9,215 viajes respectivamente, por lo que claramente la mañana de la huelga de tubos tuvo muchos más viajes. Para probar esto estadísticamente, definí un grupo de control más grande establecido a un mes a ambos lados de la huelga de tubo, ignorando los fines de semana (un total de 43 días). Obtenemos un promedio de 8,579 viajes por mañana en este grupo de control, y con una desviación estándar de 1,295, el número de viajes tomados en la mañana de la huelga de tubo es estadísticamente diferente del promedio (usando una prueba t simple).
Mirando las estaciones de bicicletas individuales, el siguiente gráfico muestra el número promedio de usos matutinos (entradas + salidas entre 0700-1000) en el grupo de control para los 10 puntos de bicicleta principales, comparando esto con el uso en la mañana del golpe de tubo:
Versión interactiva aquí
El conjunto de datos TFL también proporciona información sobre el tiempo necesario para completar una ruta. Mirando la distribución de la duración del viaje entre el grupo de control y la mañana de Strike Tube, obtengo los siguientes histogramas:
Versión interactiva aquí
Al comparar los dos, parecería que, en promedio, los viajes tardaron más en la mañana del golpe de tubo: el contenedor modal para el grupo de control ocurre en menos de 10 minutos, mientras que para la mañana de golpe de tubo es de 16 minutos. Formalmente puedo probar esto utilizando una prueba de Kolmogorov-Smirnov de dos muestras, que prueba si dos muestras provienen de la misma distribución. Usando esta prueba, encuentro que las dos muestras son estadísticamente diferentes.
Crédito a Eric Hannell por algo de la inspiración original para este análisis: consulte su publicación de blog "Un mapa de las bicicletas de Londres" aquí.