Im Rahmen des Free Transport Data Service veröffentlicht Transport for London (TFL) Daten zu Reisen, die mit ihren Santander -Zyklen aufgenommen wurden - auch bekannt als "Boris Bikes". Die Daten gehen auf Januar 2015 zurück und zeigen Informationen zu den Start- und Endstandorten der Reise sowie Dauer und Tageszeit. Durch die Kombination dieser Informationen mit den Koordinaten jedes Zyklus -Mietpunkts habe ich die wahrscheinlichste Reise für jede Start/End -Kombination vorausgesagt und die Auswirkungen von Röhrchenangriffen auf die Fahrradverwendung untersucht.
Alle technischen Details finden Sie im Python -Notizbuch auf meinem GitHub.
TFL hosten alle Rohzyklusdaten auf ihrer Radsportdatenwebsite als eine Reihe von CSV -Dateien. Darüber hinaus verfügen sie über einen Live -XML -Datenfeed, der den Status jedes Fahrradpunkts in London zeigt und Informationen wie die Koordinaten, die Anzahl der freien Docks, die Gesamtkapazität usw. ergeben.
Für diejenigen, die nicht wissen, finden Sie unten eine Karte aller Mietstationen in London.
Ich habe auch eine schicke interaktive Version dieses Handels in Bokeh generiert - klicken Sie hier, um es zu sehen (es ist 30 MB+, also dauert es eine Weile, dass sie geladen werden). Sie können mit dieser Version zoomen/scrollen und Ihnen auch den Namen und die Kapazität jedes Standorts mitteilen.
Angesichts der Tatsache, dass es 777 Stationen in ganz London gibt (zumindest zum Zeitpunkt des Schreibens), ermöglicht dies 777 * 776 = 602.952 mögliche Reisekombinationen, wenn wir diejenigen ignorieren, die an derselben Station beginnen und enden. Wenn ich meinen Datensatz ansehe, finde ich ungefähr 400.000 einzigartige Routen.
Um jede Route zu zeichnen, musste ich einige Annahmen darüber treffen, wie jede Reise durchgeführt wurde, da keine Informationen über die tatsächliche Route verfügbar sind. Der Einfachheit halber habe ich angenommen, dass jeder Radfahrer für jede Start-/Endpaarung den schnellsten Weg einnahm, wie es von einem Online -Routenplaner vorgeschrieben ist. Um diese Annahme etwas realistischer zu gestalten, habe ich auch meinen Datensatz auf nur die Diagrammrouten gesenkt, die doppelt so lange dauerten wie die erwartete Dauer des Routenplaners - dh ignorierte Reisen, auf denen der Radfahrer eindeutig einen anderen Weg einnahm (und vielleicht einige schrecklich langsame Menschen ).
Während Google eine API von Radfahren anbietet, liegt 400.000 Anfragen weit über das kostenlose API -Nutzungsgrenze hinaus und weit mehr, als ich bereit bin, zu bezahlen. Stattdessen habe ich mich für einen eigenen OSRM -Server entschieden, den ich so oft abfragen konnte, wie ich es mir mochte. Details zur Einrichtung des Servers finden Sie auf Ilias GitHub.
Nachdem ich die Wegpunkte für jede Route berechnet hatte, zeichnete ich die resultierenden 13 Millionen Routen mithilfe von Datashader auf und aggregierte jede Route mit der Häufigkeit, mit der sie genommen wurden (dh desto dicker die Linie, desto mehr Menschen verwendeten diese Route). Das vollständige Diagramm ist unten zu sehen:
Schauen wir uns zunächst die beliebtesten Fahrradstationen in London an. Die Top -Fahrradstationen in ganz London definieren einen einzigen Fluss als jemand, der ein Fahrrad mit einem Fahrrad einnimmt oder anlegt. Sie sind:
Die Belgrove Street, Kings Cross ist mit 314.729 Gesamtflüssen (157.025 Zuflüsse und 157.704 Abflüssen) im gesamten Datensatz am beliebtesten. Die am wenigsten beliebte der Bevington Road, North Kensington, mit 1.131 Gesamtflüssen (515 Zuflüsse und 616 Abflüsse) - diese Station wurde jedoch erst am 4. Juli 2016 installiert.
Eine alternative Möglichkeit, die Stationen zu rankieren, ist der PageRank -Algorithmus von Google. Die zugrunde liegende Theorie hinter dem PageRank -Algorithmus ist, dass, wenn eine Station häufig über andere "wichtige" Stationen verbunden ist, der Rang dieser Station zunimmt:
Interessanterweise unterscheiden sich die Ergebnisse basierend auf der Anzahl der Flüsse ziemlich stark von der Rangliste. Dies würde bedeuten, dass die verschiedenen Stationen auf dem Strang zwar nicht die höchste Anzahl von Strömen haben, aber häufig über andere "wichtige" Stationen gereist sind, wodurch hoch eingestuft wird.
Wenn Sie in London wohnen, haben Sie wahrscheinlich die Transporter bemerkt, die die Fahrräder tagsüber bewegen - Fahrräder von Vollstationen nehmen und sie in leere Stationen umverteilen. Durch die Betrachtung des Unterschieds zwischen Zuflüssen und Abflüssen kann ich die Stationen zeigen, die von dieser Fehlanpassung am schlimmsten betroffen sind und somit die größte Umverteilung erfordern.
Durch Filtern des Datensatzes, um nur Wochentage entweder am Morgen oder am Abend zu betrachten, kann ich auch die Pendelmuster der Londoner zeigen:
Im obigen repräsentiert Rot eine Station mit mehr Fahrrädern, die eingehen als einzukommen (Abflüsse> Zuflüsse), während Grün das Gegenteil darstellt. Wie erwartet pendeln die Menschen am Morgen aus den Vororten in das Zentrum, während das Gegenteil am Abend auftritt. Canary Wharf macht sich auch im Osten auffällig.
Eine interaktive Version dieses Diagramms ist hier zu sehen - wieder ist dieser eine 30 MB+. Daher dauert es eine Weile, bis sie geladen werden.
Am 8. Juli 2015 gab es von 1830 abends bis 2130 am folgenden Tag. Während ich zum Glück die Möglichkeit hatte, an diesem Tag von zu Hause aus zu arbeiten, mussten viele Londoner alternative Transportmittel finden, um zur Arbeit zu gelangen. Durch den Betrachten dieses Datensatzes kann ich versuchen zu sehen, ob eine von ihnen stattdessen zum Fahrrad zur Arbeit gewählt hat.
Als einfache erste Metrik zeigt der folgende Barchart die Anzahl der zwischen dem 9. Juni und dem 9. August 2015 unternommenen Reisen:
Interaktive Version hier
Am 9. Juli gibt es einen klaren Anstieg der Reisen. Der zweite Spike? Ein weiterer Röhrenschlag.
In der Hauptstadt von 0700 und 1000 wurden erst am Morgen des 9. Juli zwischen 0700 und 1000 16.501 Fahrten durchgeführt. Der gleiche Zeitraum am Donnerstag vor und nach dem Streik hatte 9.111 bzw. 9.215 Reisen - so hatte der Röhrenstreikmorgen eindeutig viel mehr Reisen. Um dies statistisch zu testen, habe ich eine größere Kontrollgruppe definiert, die auf einem Monat auf beiden Seiten des Röhrchenstreiks festgelegt wurde und die Wochenenden (insgesamt 43 Tage) ignorierte. In dieser Kontrollgruppe erhalten wir durchschnittlich 8.579 Reisen pro Morgen. Mit einer Standardabweichung von 1.295 unterscheidet sich die Anzahl der am Morgen des Rohrschlags unternommenen Reisen statistisch vom Durchschnitt (unter Verwendung eines einfachen T-Tests).
Wenn man sich die einzelnen Fahrradstationen ansieht, zeigt das folgende Diagramm die durchschnittliche Anzahl von Morgennutzungen (Zuflüsse + Abflüsse zwischen 0700-1000) in der Kontrollgruppe für die Top 10 Fahrradpunkte und verglichen dies mit der Verwendung am Morgen des Rohrangers:
Interaktive Version hier
Der TFL -Datensatz gibt auch Informationen zu der Zeit, die für die Abschluss einer Route benötigt wird. Wenn ich mich die Verteilung der Reisedauer zwischen der Kontrollgruppe und dem Röhrchen -Streikmorgen betrachte, bekomme ich die folgenden Histogramme:
Interaktive Version hier
Im Vergleich der beiden scheint es, dass die Reisen im Durchschnitt am Röhrchenmorgen in der Tat länger dauerten - der Modalbehälter für die Kontrollgruppe tritt nach weniger als 10 Minuten auf, während für den Röhrenstreikmorgen über 16 Minuten es beträgt. Formal kann ich dies unter Verwendung eines Kolmogorov-Smirnov-Tests mit zwei Stichproben testen, bei dem getestet wird, ob zwei Proben aus derselben Verteilung stammen. Mit diesem Test finde ich, dass die beiden Proben statistisch unterschiedlich sind.
Gutschrift an Eric Hannell für einige der ursprünglichen Inspirationen für diese Analyse - siehe seinen Blog -Beitrag "Eine Karte der Bikes of London" hier.