Dans le cadre du service de données de transport gratuit, Transport for London (TFL) publie des données sur les voyages effectués à l'aide de leurs cycles de Santander - alias "Boris Bikes". Les données remontent à janvier 2015, montrant des informations sur les emplacements de départ et de fin du voyage, ainsi que la durée et l'heure de la journée. En combinant ces informations avec les coordonnées de chaque point de location de cycle, j'ai prédit le voyage le plus probable effectué pour chaque combinaison de début / fin, ainsi que de regarder l'impact des frappes du tube sur l'utilisation du vélo.
Pour tous les détails techniques, consultez le cahier Python sur mon github ici.
TFL héberge toutes les données de cycle brute sur leur site Web de données cyclables en tant que série de fichiers CSV. En outre, ils ont également un flux de données XML en direct montrant l'état de chaque point de vélo à Londres, fournissant des informations telles que ses coordonnées, le nombre de quais gratuits, la capacité totale, etc.
Pour ceux qui ne le savent pas, une carte de toutes les stations de location de cycle à travers Londres.
J'ai également généré une version interactive fantaisie de ce tracé dans Bokeh - cliquez ici pour le voir (c'est 30 Mo +, donc prend un peu de temps à charger). Vous pouvez zoomer / défiler avec cette version, et il vous indique également le nom et la capacité de chaque emplacement.
Étant donné qu'il y a 777 stations à travers Londres (au moins au moment de la rédaction), cela permet 777 * 776 = 602 952 combinaisons de voyage possibles si nous ignorons ceux qui commencent et se terminent à la même station. En regardant mon ensemble de données, je trouve qu'environ 400 000 routes uniques ont été empruntées.
Afin de tracer chaque itinéraire, j'avais besoin de faire des hypothèses sur la façon dont chaque voyage a été effectué, car aucune information sur l'itinéraire emprunté n'est disponible. Pour plus de simplicité, j'ai supposé que pour chaque appariement de démarrage / fin, chaque cycliste a pris l'itinéraire le plus rapide tel que prescrit par un planificateur d'itinéraire en ligne. Pour rendre cette hypothèse un peu plus réaliste, j'ai également réduit mon ensemble de données sur uniquement des itinéraires qui ont pris jusqu'à deux fois plus longtemps ).
Alors que Google propose une API de directions cyclables, 400 000 demandes sont bien au-delà de leur limite d'utilisation gratuite de l'API, et bien plus que je ne suis prêt à payer. Au lieu de cela, j'ai choisi de configurer mon propre serveur OSRM, que je pouvais interroger autant de fois que j'aimais. Les détails de la configuration du serveur peuvent être trouvés sur le github d'Ilia.
Une fois que j'ai calculé les waypoints pour chaque itinéraire, j'ai tracé les plus de 13 millions de routes résultantes à l'aide de Datashader, agrégant chaque itinéraire par le nombre de fois où il a été pris (c'est-à-dire plus la ligne est épaisse, plus les personnes utilisées par cette route). Le complot complet peut être vu ci-dessous:
Tout d'abord, regardons les stations cyclables les plus populaires de Londres. Définition d'un seul flux comme quelqu'un qui prend ou amartit un vélo sur une station, les meilleures stations de vélo à travers Londres sont:
Belgrove Street, Kings Cross est le plus populaire avec 314 729 flux totaux (157 025 entrées et 157 704 sorties) dans l'ensemble de données. Le moins populaire, en revanche, est Bevington Road, North Kensington, avec 1 131 flux totaux (515 entrées et 616 sorties) - mais cette station n'a été installée que le 4 juillet 2016.
Une autre façon de classer les stations est via l'algorithme PageRank de Google. La théorie sous-jacente derrière l'algorithme PageRank est que si une station est fréquemment liée à d'autres stations "importantes", alors le rang de cette station augmentera:
Fait intéressant, les résultats diffèrent un peu du classement simplement en fonction du nombre de flux. Cela impliquerait que si les différentes stations sur le brin peuvent ne pas avoir le plus grand nombre de flux, ils sont fréquemment voyagés dans d'autres stations "importantes", étant ainsi très classées.
Si vous vivez à Londres, vous avez probablement remarqué les camionnettes qui déplacent les vélos pendant la journée - en prenant des vélos de stations complets et en les redistribuant dans des stations vides. En regardant la différence entre les entrées et les sorties, je peux montrer les stations qui sont les plus affectées par cette inadéquation et nécessitent donc le plus de redistribution.
En filtrant l'ensemble de données pour ne regarder que les jours de semaine le matin ou le soir, je peux également montrer les modèles de navettage des Londoniens:
Dans ce qui précède, le rouge représente une station avec plus de vélos partant que de venir (sorties> entrées), tandis que le vert représente le contraire. Comme prévu, le matin, les gens se rendent au centre depuis la banlieue, tandis que l'inverse se produit le soir. Canary Wharf est également assez perceptible à l'est.
Une version interactive de ce graphique peut être vue ici - encore une fois, celle-ci est de 30 Mo +, il faudra donc un certain temps à charger.
Le 8 juillet 2015, il y a eu une grève de tube à l'échelle de Londres qui s'est produite à partir de 1830 du soir à 2130 le lendemain. Alors que j'avais heureusement la possibilité de travailler à domicile ce jour-là, de nombreux Londoniens devaient trouver d'autres moyens de transport pour se rendre au travail. En regardant cet ensemble de données, je peux essayer de voir si l'un d'eux a choisi de faire du vélo pour travailler à la place.
En tant que première métrique simple, le bar à barre suivant montre le nombre de voyages effectués entre le 9 juin et le 9 août 2015:
Version interactive ici
Il y a un pic clair dans les voyages effectués le 9 juillet. Le deuxième pic? Une autre frappe de tube.
En regardant juste le matin du jeudi 9 juillet entre 0700 et 1000, 16 501 voyages ont été effectués dans la capitale. La même période le jeudi précédent et suivant la grève a connu 9 111 et 9 215 voyages respectivement - donc clairement le matin de la grève des tubes a connu beaucoup plus de voyages. Pour tester cela statistiquement, j'ai défini un groupe de contrôle plus grand réglé à un mois de chaque côté de la grève de la tube, ignorant les week-ends (un total de 43 jours). Nous obtenons en moyenne 8 579 voyages par matin dans ce groupe témoin, et avec un écart-type de 1 295, le nombre de voyages effectués le matin de la grève de la tube est statistiquement différent de la moyenne (en utilisant un simple test t).
En regardant les stations de vélo individuelles, le graphique suivant montre le nombre moyen d'utilisations matinales (entrées + sorties entre 0700-1000) dans le groupe témoin pour les 10 meilleurs points de vélo, en comparant cela à l'utilisation le matin de la frappe du tube:
Version interactive ici
L'ensemble de données TFL donne également des informations sur le temps pris pour achever un itinéraire. En regardant la distribution de la durée du voyage entre le groupe témoin et la frappe du tube, j'obtiens les histogrammes suivants:
Version interactive ici
En comparant les deux, il semblerait qu'en moyenne, les voyages ont en effet pris plus de temps le matin du tube - le bac modal pour le groupe témoin se produit à moins de 10 minutes, tandis que pour la frappe du tube, il dure plus de 16 minutes. Formellement, je peux tester cela à l'aide d'un test de Kolmogorov-Smirnov à deux échantillons, qui teste si deux échantillons proviennent de la même distribution. En utilisant ce test, je trouve que les deux échantillons sont statistiquement différents.
Crédit à Eric Hannell pour une partie de l'inspiration originale de cette analyse - voir son article de blog "Une carte des vélos de Londres" ici.