無料の輸送データサービスの一環として、ロンドンのトランスポート(TFL)は、サンタンダーサイクル(別名ボリスバイク」を使用して撮影した旅のデータをリリースします。データは2015年1月にさかのぼり、時間と時間の時間と時間とともに、旅の開始場所と終了場所に関する情報を示しています。この情報を各サイクルレンタルポイントの座標と組み合わせることにより、各スタート/エンドの組み合わせで最も可能性の高い旅を予測し、自転車の使用に対するチューブストライクの影響を調べました。
すべての技術的な詳細については、ここのGitHubのPythonノートブックを参照してください。
TFLは、CSVファイルのシリーズとして、サイクリングデータWebサイトのすべての生サイクルデータをホストしています。さらに、ロンドンの各自転車ポイントのステータスを示すライブXMLデータフィードもあり、その座標、フリードックの数、総容量などの情報が得られます。
気付いていない人のために、以下はロンドン全土のすべてのサイクルレンタルステーションの地図です。
また、Bokehでこのプロットの派手なインタラクティブなバージョンを生成しました。ここをクリックして表示されます(30MB++なので、ロードするのに少し時間がかかります)。このバージョンでズーム/スクロールすることもできます。また、各場所の名前と容量も表示されます。
ロンドンには777のステーションがあることを考えると(少なくとも執筆時点で)、同じステーションで開始および終了するものを無視すると、777 * 776 = 602,952の旅の組み合わせが可能になります。私のデータセットを見ると、実際に約400kのユニークなルートが撮影されています。
各ルートをプロットするためには、実際のルートに関する情報が利用できないため、各旅がどのように行われたかについていくつかの仮定を行う必要がありました。簡単にするために、私は各スタート/エンドペアリングごとに、すべてのサイクリストがオンラインルートプランナーによって規定されているように最も速いルートをとったと仮定しました。この仮定をもう少しリアルにするために、データセットを削減して、ルートプランナーの予想される期間の2倍の長さのルートのみをプロットするために、つまり、サイクリストが明らかに別のルートを取った旅を無視しています(そして、おそらく一部の人が遅くなる人もいます。 )。
Googleはサイクリングの方向APIを提供していますが、400,000のリクエストは無料のAPI使用制限をはるかに超えており、私が喜んで支払うよりもはるかに多くなっています。代わりに、私は自分のOSRMサーバーをセットアップすることを選択しました。サーバーのセットアップ方法の詳細は、IliaのGitHubで見つけることができます。
各ルートのウェイポイントを計算すると、結果として生じる1300万回のルートをDatashaderを使用してプロットし、各ルートを取得した回数だけ集約しました(つまり、ラインが厚くなるほど、そのルートを使用しました)。完全なプロットを以下に見ることができます。
まず、ロンドンで最も人気のある自転車ステーションを見てみましょう。ロンドンのトップバイクステーションは、駅を自転車に乗るかドッキングしている人として単一のフローを定義することです。
Kings CrossのBelgrove Streetは、データセット全体で314,729の総流量(157,025の流入と157,704の流出)で最も人気があります。一方、最も人気の少ないのは、ノースケンジントンのベビントンロードで、合計1,131のフロー(515流入と616の流出)がありますが、このステーションは2016年7月4日にのみ設置されました。
ステーションをランキングする別の方法は、GoogleのPagerankアルゴリズムを使用することです。 Pagerankアルゴリズムの背後にある根本的な理論は、ステーションが他の「重要な」ステーションを介して頻繁にリンクされている場合、そのステーションのランクが増加するということです。
興味深いことに、結果はフローの数に基づいてランキングとはかなり異なります。これは、ストランド上のさまざまなステーションが最も多くのフローを持っていないかもしれないが、他の「重要な」ステーションを介して頻繁に移動しているため、高度にランク付けされることを意味します。
あなたがロンドンに住んでいるなら、あなたはおそらく、日中に自転車を動かしているバンに気づいたでしょう - フルステーションから自転車を取り、それらを空の駅に再配布します。流入と流出の違いを見ると、この不一致の影響を受けたステーションを表示することができ、したがって最も再分配が必要です。
データセットをフィルタリングして、朝または夕方の平日のみを見ることで、ロンドン市民の通勤パターンを表示することもできます。
上記では、Redは入ってくるよりも多くの自転車が残っている駅(流出>流入)を表し、緑は反対を表します。予想通り、朝には人々は郊外からセンターに通っていますが、夕方には反対が起こります。カナリーワーフも東部では非常に顕著です。
このグラフのインタラクティブなバージョンはここで見ることができます - 繰り返しますが、これは30MB+なので、ロードするのに時間がかかります。
2015年7月8日、ロンドン全体のチューブストライキがあり、1830年から夕方から翌日に2130年まで発生しました。幸いなことに、その日は自宅で仕事をするオプションがありましたが、多くのロンドンの人々は仕事に就くための代替輸送手段を見つけなければなりませんでした。このデータセットを見ると、代わりに作業するためにサイクリングすることを選択したかどうかを確認することができます。
単純な最初の指標として、次のバーチャートは、2015年の6月9日から8月9日までに行われた旅の数を示しています。
ここにインタラクティブなバージョン
7月9日に撮影された旅の明確な急増があります。 2番目のスパイク?別のチューブストライク。
7月9日木曜日の0700から1000の間の朝だけを見ると、首都で16,501の旅が行われました。ストライキの前後の木曜日の同じ期間には、それぞれ9,111と9,215の旅がありました。そのため、明らかにチューブストライクの朝にはさらに多くの旅がありました。これを統計的にテストするために、週末(合計43日)を無視して、チューブストライクの両側にセットされたより大きなコントロールグループを定義しました。このコントロールグループでは、朝あたり平均8,579回の旅が行われ、標準偏差が1,295で、チューブストライクの朝に採用された旅の数は平均と統計的に異なります(単純なt検定を使用)。
個々の自転車ステーションを見ると、次のグラフは、トップ10の自転車ポイントのコントロールグループの朝の使用数(0700-1000の流入 +流出)を示しています。
ここにインタラクティブなバージョン
TFLデータセットは、ルートを完了するのにかかった時間に関する情報も提供します。コントロールグループとチューブストライクの朝の間の旅程の分布を見ると、次のヒストグラムが得られます。
ここにインタラクティブなバージョン
この2つを比較すると、平均して、旅の朝の朝にジャーニーが実際に時間がかかったように見えます。コントロールグループのモーダルビンは10分未満で発生しますが、チューブストライクの朝は16分以上です。正式には、2サンプルのコルモゴロフスミルノフテストを使用してこれをテストできます。これは、2つのサンプルが同じ分布から来るかどうかをテストします。このテストを使用して、2つのサンプルが統計的に異なることがわかります。
この分析の最初のインスピレーションのいくつかについては、エリック・ハネルにクレジットしてください - 彼のブログ投稿「ロンドンのバイクの地図」を参照してください。