Sebagai bagian dari layanan data transportasi gratis, Transport for London (TFL) merilis data tentang perjalanan yang dilakukan dengan menggunakan Santander Cycles - alias "Boris Bikes". Data kembali ke Januari 2015, menunjukkan informasi tentang lokasi awal dan akhir perjalanan, bersama dengan durasi dan waktu hari. Dengan menggabungkan informasi ini dengan koordinat dari setiap titik sewa siklus, saya memperkirakan perjalanan yang paling mungkin dilakukan untuk setiap kombinasi awal/akhir, serta melihat dampak serangan tabung pada penggunaan sepeda.
Untuk semua detail teknis, lihat buku catatan Python di github saya di sini.
TFL meng -host semua data siklus mentah di situs web data bersepeda mereka sebagai serangkaian file CSV. Selain itu, mereka juga memiliki umpan data XML langsung yang menunjukkan status setiap titik sepeda di London, menghasilkan informasi seperti koordinatnya, jumlah dermaga gratis, total kapasitas dll.
Bagi mereka yang tidak sadar, di bawah ini adalah peta semua stasiun sewa siklus di seluruh London.
Saya juga telah menghasilkan versi interaktif mewah dari plot ini di Bokeh - klik di sini untuk melihatnya (ini 30MB+, jadi butuh sedikit waktu untuk memuat). Anda dapat memperbesar/menggulir dengan versi ini, dan juga memberi tahu Anda nama dan kapasitas setiap lokasi.
Mengingat bahwa ada 777 stasiun di seluruh London (setidaknya pada saat penulisan), ini memungkinkan untuk 777 * 776 = 602.952 kemungkinan kombinasi perjalanan jika kita mengabaikan yang dimulai dan berakhir di stasiun yang sama. Melihat dataset saya, saya menemukan sekitar 400 ribu rute unik yang benar -benar diambil.
Untuk memplot setiap rute, saya perlu membuat beberapa asumsi tentang bagaimana setiap perjalanan dilakukan, karena tidak ada informasi tentang rute aktual yang diambil. Untuk kesederhanaan saya berasumsi bahwa untuk setiap pasangan start/end, setiap pengendara sepeda mengambil rute tercepat seperti yang ditentukan oleh perencana rute online. Untuk membuat asumsi ini sedikit lebih realistis, saya juga mengurangi dataset saya untuk hanya merencanakan rute yang memakan waktu dua kali lebih lama dari durasi yang diharapkan perencana rute - yaitu mengabaikan perjalanan di mana pengendara sepeda dengan jelas mengambil rute lain (dan mungkin beberapa orang yang sangat lambat lambat ).
Sementara Google menawarkan API Arah Bersepeda, 400.000 permintaan jauh di luar batas penggunaan API gratis mereka, dan jauh lebih banyak daripada yang ingin saya bayar. Sebagai gantinya, saya memilih untuk mengatur server OSRM saya sendiri, yang dapat saya minta sebanyak yang saya suka. Rincian cara mengatur server dapat ditemukan di Ilia's Github.
Setelah saya menghitung titik arah untuk setiap rute, saya merencanakan 13+ juta rute yang dihasilkan menggunakan DataShader, mengumpulkan setiap rute dengan berapa kali diambil (yaitu semakin tebal garis, semakin banyak orang yang menggunakan rute itu). Plot lengkap dapat dilihat di bawah:
Pertama, mari kita lihat stasiun sepeda paling populer di London. Mendefinisikan aliran tunggal sebagai seseorang yang mengambil atau merapatkan sepeda stasiun, stasiun sepeda teratas di seluruh London adalah:
Belgrove Street, Kings Cross adalah yang paling populer dengan 314.729 total aliran (157.025 arus masuk dan 157.704 arus keluar) di seluruh dataset. Di sisi lain yang paling populer adalah Bevington Road, North Kensington, dengan total 1.131 aliran (515 arus masuk dan 616 arus keluar) - namun stasiun ini hanya dipasang pada 4 Juli 2016.
Cara alternatif peringkat stasiun adalah melalui algoritma Google PageRank. Teori yang mendasari di balik algoritma PageRank adalah bahwa jika stasiun sering dikaitkan dengan stasiun "penting" lainnya, maka peringkat stasiun itu akan meningkat:
Menariknya hasilnya sedikit berbeda dari peringkat hanya berdasarkan jumlah aliran. Ini akan menyiratkan bahwa sementara berbagai stasiun di untai mungkin tidak memiliki jumlah aliran tertinggi, mereka sering bepergian ke melalui stasiun "penting" lainnya, sehingga peringkat tinggi.
Jika Anda tinggal di London, Anda mungkin memperhatikan van yang menggerakkan sepeda di siang hari - mengambil sepeda dari stasiun penuh, dan mendistribusikannya kembali ke stasiun kosong. Dengan melihat perbedaan antara arus masuk dan arus keluar, saya dapat menunjukkan stasiun -stasiun yang terburuk dipengaruhi oleh ketidakcocokan ini, dan dengan demikian membutuhkan redistribusi paling banyak.
Dengan memfilter dataset untuk hanya melihat pada hari kerja di pagi atau sore hari, saya juga dapat menunjukkan pola komuter London:
Di atas, merah mewakili stasiun dengan lebih banyak sepeda yang pergi daripada masuk (arus masuk>), sementara hijau mewakili kebalikannya. Seperti yang diharapkan, di pagi hari orang -orang bepergian ke pusat dari pinggiran kota, sementara yang sebaliknya terjadi di malam hari. Canary Wharf juga cukup terlihat di timur.
Versi interaktif dari grafik ini dapat dilihat di sini - sekali lagi, yang ini 30MB+, jadi akan membutuhkan waktu untuk memuat.
Pada 8 Juli 2015, ada serangan tabung di London yang terjadi dari tahun 1830 di malam hari hingga 2130 pada hari berikutnya. Sementara saya untungnya memiliki pilihan untuk bekerja dari rumah hari itu, banyak warga London harus menemukan alat transportasi alternatif untuk mulai bekerja. Dengan melihat dataset ini, saya dapat mencoba melihat apakah ada di antara mereka yang memilih untuk bekerja sebagai gantinya.
Sebagai metrik pertama yang sederhana, barchart berikut menunjukkan jumlah perjalanan yang diambil antara 9 Juni dan 9 Agustus di 2015:
Versi interaktif di sini
Ada lonjakan perjalanan yang jelas yang dilakukan pada tanggal 9 Juli. Lonjakan kedua? Serangan tabung lainnya.
Melihat hanya pagi hari Kamis 9 Juli antara pukul 07.700 dan 1000, ada 16.501 perjalanan yang dilakukan di ibukota. Periode waktu yang sama pada hari Kamis sebelum dan mengikuti pemogokan masing -masing memiliki 9.111 dan 9.215 perjalanan - jadi jelas pemogokan tabung pagi memiliki lebih banyak perjalanan. Untuk menguji ini secara statistik, saya mendefinisikan kelompok kontrol yang lebih besar yang ditetapkan pada sebulan di kedua sisi pemogokan tabung, mengabaikan akhir pekan (total 43 hari). Kami mendapatkan rata-rata 8.579 perjalanan per pagi dalam kelompok kontrol ini, dan dengan standar deviasi 1.295, jumlah perjalanan yang dilakukan pada pagi hari pemogokan tabung secara statistik berbeda dari rata-rata (menggunakan uji-t sederhana).
Melihat stasiun sepeda individu, grafik berikut menunjukkan jumlah rata-rata penggunaan pagi (aliran masuk + arus keluar antara 0700-1000) di kelompok kontrol untuk 10 titik sepeda teratas, membandingkan ini dengan penggunaan pada pagi hari serangan tabung:
Versi interaktif di sini
Dataset TFL juga memberikan informasi tentang waktu yang dibutuhkan untuk menyelesaikan rute. Melihat distribusi durasi perjalanan antara kelompok kontrol dan tube mogok pagi, saya mendapatkan histogram berikut:
Versi interaktif di sini
Membandingkan keduanya, akan tampak bahwa rata -rata, perjalanan memang memakan waktu lebih lama pada tabung mogok pagi - nampan modal untuk kelompok kontrol terjadi kurang dari 10 menit, sedangkan untuk tabung mogok pagi itu lebih dari 16 menit. Secara formal saya dapat menguji ini menggunakan uji Kolmogorov-Smirnov dua sampel, yang menguji apakah dua sampel berasal dari distribusi yang sama. Dengan menggunakan tes ini, saya menemukan bahwa kedua sampel secara statistik berbeda.
Penghargaan untuk Eric Hannell untuk beberapa inspirasi asli untuk analisis ini - lihat posting blognya "A Map of the Bikes of London" di sini.