เป็นส่วนหนึ่งของบริการข้อมูลการขนส่งฟรี Transport for London (TFL) ปล่อยข้อมูลเกี่ยวกับการเดินทางโดยใช้ Santander Cycles - AKA "Boris Bikes" ข้อมูลย้อนกลับไปถึงเดือนมกราคม 2558 แสดงข้อมูลเกี่ยวกับจุดเริ่มต้นและจุดสิ้นสุดของการเดินทางพร้อมกับระยะเวลาและเวลาของวัน ด้วยการรวมข้อมูลนี้เข้ากับพิกัดของแต่ละจุดเช่ารอบฉันคาดการณ์การเดินทางที่น่าจะเป็นไปได้มากที่สุดสำหรับการรวมกันของการเริ่มต้น/สิ้นสุดแต่ละครั้งรวมถึงการดูผลกระทบของการนัดหยุดงานของหลอดต่อการใช้จักรยาน
สำหรับรายละเอียดทางเทคนิคทั้งหมดดูสมุดบันทึก Python บน GitHub ของฉันที่นี่
TFL โฮสต์ข้อมูลวัฏจักรดิบทั้งหมดบนเว็บไซต์ข้อมูลการขี่จักรยานเป็นชุดของไฟล์ CSV นอกจากนี้พวกเขายังมีฟีดข้อมูล XML สดที่แสดงสถานะของแต่ละจุดจักรยานในลอนดอนซึ่งให้ข้อมูลเช่นพิกัดจำนวนท่าเทียบเรือฟรีความจุรวม ฯลฯ
สำหรับผู้ที่ไม่รู้ตัวด้านล่างนี้เป็นแผนที่ของสถานีจ้างวัฏจักรทั้งหมดทั่วลอนดอน
ฉันยังได้สร้างพล็อตเรื่องอินเทอร์แอคทีฟแบบแฟนซีใน Bokeh - คลิกที่นี่เพื่อดู (มันคือ 30MB+ดังนั้นใช้เวลาสักครู่ในการโหลด) คุณสามารถซูม/เลื่อนด้วยเวอร์ชันนี้และยังบอกชื่อและความสามารถของแต่ละสถานที่
ระบุว่ามี 777 สถานีทั่วลอนดอน (อย่างน้อยในขณะที่เขียน) สิ่งนี้จะช่วยให้ 777 * 776 = 602,952 การรวมกันของการเดินทางที่เป็นไปได้หากเราเพิกเฉยต่อผู้ที่เริ่มต้นและสิ้นสุดที่สถานีเดียวกัน เมื่อดูที่ชุดข้อมูลของฉันฉันพบเส้นทางที่ไม่ซ้ำกันประมาณ 400K
เพื่อที่จะพล็อตแต่ละเส้นทางฉันจำเป็นต้องตั้งสมมติฐานบางอย่างเกี่ยวกับวิธีการเดินทางแต่ละครั้งเนื่องจากไม่มีข้อมูลเกี่ยวกับเส้นทางที่เกิดขึ้นจริง เพื่อความเรียบง่ายฉันสันนิษฐานว่าสำหรับการจับคู่เริ่มต้น/สิ้นสุดแต่ละครั้งนักปั่นทุกคนใช้เส้นทางที่เร็วที่สุดตามที่กำหนดโดยผู้วางแผนเส้นทางออนไลน์ เพื่อให้สมมติฐานนี้เป็นจริงมากขึ้นฉันยังลดชุดข้อมูลของฉันเป็นเส้นทางพล็อตที่ใช้เวลานานถึงสองเท่าของระยะเวลาที่คาดหวังของผู้วางแผนเส้นทาง - คือไม่สนใจการเดินทางที่นักปั่นจักรยานใช้เส้นทางอื่นอย่างชัดเจน ).
ในขณะที่ Google เสนอทิศทางการขี่จักรยาน API 400,000 คำขออยู่ไกลเกินขีด จำกัด การใช้งาน API ฟรีและมากกว่าที่ฉันเต็มใจจ่าย แต่ฉันเลือกที่จะตั้งค่าเซิร์ฟเวอร์ OSRM ของตัวเองซึ่งฉันสามารถสอบถามได้หลายครั้งเท่าที่ฉันชอบ รายละเอียดของวิธีการตั้งค่าเซิร์ฟเวอร์สามารถพบได้ใน GitHub ของ Ilia
เมื่อฉันคำนวณจุดทางสำหรับแต่ละเส้นทางฉันได้วางแผนเส้นทางที่ได้ 13 ล้านเส้นทางโดยใช้ Datashader โดยรวมแต่ละเส้นทางด้วยจำนวนครั้งที่มันถูกถ่าย (เช่นเส้นที่หนาขึ้นยิ่งคนใช้เส้นทางนั้นมากขึ้น) พล็อตเต็มสามารถดูได้ด้านล่าง:
ก่อนอื่นมาดูสถานีจักรยานที่ได้รับความนิยมมากที่สุดในลอนดอน การกำหนดกระแสเพียงครั้งเดียวในฐานะที่มีใครบางคนที่ใช้หรือเชื่อมต่อสถานีจักรยานสถานีจักรยานชั้นนำทั่วลอนดอนคือ:
ถนน Belgrove, Kings Cross เป็นที่นิยมมากที่สุดด้วยการไหลทั้งหมด 314,729 ครั้ง (157,025 การไหลเข้าและการไหลออก 157,704 ครั้ง) ทั่วทั้งชุดข้อมูลทั้งหมด สิ่งที่ได้รับความนิยมน้อยที่สุดในอีกทางหนึ่งคือ Bevington Road, North Kensington ซึ่งมีการไหลทั้งหมด 1,131 ครั้ง (515 ไหลเข้าและ 616 ไหลออก) - อย่างไรก็ตามสถานีนี้ติดตั้งเมื่อวันที่ 4 กรกฎาคม 2559 เท่านั้น
อีกทางเลือกหนึ่งในการจัดอันดับสถานีคือผ่านอัลกอริทึม PageRank ของ Google ทฤษฎีพื้นฐานที่อยู่เบื้องหลังอัลกอริทึม PageRank คือถ้าสถานีเชื่อมโยงกับสถานี "สำคัญ" อื่น ๆ บ่อยครั้งอันดับของสถานีนั้นจะเพิ่มขึ้น:
สิ่งที่น่าสนใจผลลัพธ์นั้นแตกต่างกันเล็กน้อยจากการจัดอันดับเพียงแค่ขึ้นอยู่กับจำนวนการไหล สิ่งนี้จะบ่งบอกว่าในขณะที่สถานีต่าง ๆ บนสายอาจไม่มีจำนวนการไหลสูงสุดพวกเขามักจะเดินทางไปยังสถานี "สำคัญ" อื่น ๆ ดังนั้นจึงถูกจัดอันดับอย่างสูง
หากคุณอาศัยอยู่ในลอนดอนคุณอาจสังเกตเห็นรถตู้ที่เคลื่อนย้ายจักรยานไปรอบ ๆ ในระหว่างวัน - นำจักรยานจากสถานีเต็มและแจกจ่ายพวกเขาไปยังสถานีที่ว่างเปล่า โดยการดูความแตกต่างระหว่างการไหลเข้าและการไหลออกฉันสามารถแสดงสถานีที่ได้รับผลกระทบที่เลวร้ายที่สุดจากความไม่ตรงกันนี้และต้องมีการแจกจ่ายซ้ำมากที่สุด
โดยการกรองชุดข้อมูลเพื่อดูเฉพาะวันธรรมดาทั้งในตอนเช้าหรือเย็นฉันยังสามารถแสดงรูปแบบการเดินทางของลอนดอน:
ในด้านบนสีแดงหมายถึงสถานีที่มีจักรยานออกไปมากกว่าเข้ามา (ไหลออก> ไหลเข้า) ในขณะที่สีเขียวแสดงถึงสิ่งที่ตรงกันข้าม ตามที่คาดไว้ในตอนเช้าผู้คนเดินทางไปที่ศูนย์จากชานเมืองในขณะที่ตรงกันข้ามเกิดขึ้นในตอนเย็น Canary Wharf ก็ค่อนข้างสังเกตได้ในภาคตะวันออก
สามารถดูกราฟเวอร์ชันแบบโต้ตอบนี้ได้ที่นี่ - อีกครั้งนี้คือ 30MB+ดังนั้นจะใช้เวลาสักครู่ในการโหลด
ในวันที่ 8 กรกฎาคม 2558 มีการนัดหยุดงานท่อทั่วกรุงลอนดอนซึ่งเกิดขึ้นตั้งแต่ปี 1830 ในตอนเย็นจนถึง 2130 ในวันรุ่งขึ้น ในขณะที่ฉันโชคดีที่มีตัวเลือกในการทำงานจากที่บ้านในวันนั้นชาวลอนดอนหลายคนต้องหาทางเลือกการขนส่งเพื่อไปทำงาน โดยการดูชุดข้อมูลนี้ฉันสามารถลองดูว่ามีคนใดเลือกที่จะปั่นจักรยานเพื่อทำงานแทนหรือไม่
ในฐานะที่เป็นตัวชี้วัดแรกที่เรียบง่าย Barchart ต่อไปนี้แสดงจำนวนการเดินทางระหว่างวันที่ 9 มิถุนายนถึง 9 สิงหาคมในปี 2558:
เวอร์ชันเชิงโต้ตอบที่นี่
มีสไปค์ที่ชัดเจนในการเดินทางในวันที่ 9 กรกฎาคม เข็มครั้งที่สอง? การนัดหยุดงานอีกครั้ง
เมื่อมองไปที่เช้าของวันพฤหัสบดีที่ 9 กรกฎาคมระหว่าง 0700 ถึง 1,000 มีการเดินทาง 16,501 ครั้งในเมืองหลวง ช่วงเวลาเดียวกันในวันพฤหัสบดีก่อนหน้านี้และหลังจากการนัดหยุดงานมีการเดินทาง 9,111 และ 9,215 การเดินทางตามลำดับ - ดังนั้นการนัดหยุดงานของหลอดในตอนเช้ามีการเดินทางมากขึ้น ในการทดสอบทางสถิตินี้ฉันได้กำหนดกลุ่มควบคุมขนาดใหญ่ที่ตั้งไว้ที่หนึ่งเดือนทั้งสองด้านของการโจมตีหลอดโดยไม่สนใจวันหยุดสุดสัปดาห์ (รวม 43 วัน) เราได้รับค่าเฉลี่ย 8,579 การเดินทางต่อเช้าในกลุ่มควบคุมนี้และด้วยค่าเบี่ยงเบนมาตรฐาน 1,295 จำนวนการเดินทางที่เกิดขึ้นในตอนเช้าของการนัดหยุดงานของหลอดจะแตกต่างจากค่าเฉลี่ยทางสถิติ (โดยใช้ t-test ง่าย ๆ )
ดูที่สถานีจักรยานแต่ละแห่งกราฟต่อไปนี้แสดงจำนวนการใช้งานตอนเช้าโดยเฉลี่ย (ไหลเข้า + ไหลออกระหว่าง 0700-1000) ในกลุ่มควบคุมสำหรับคะแนนจักรยาน 10 อันดับแรกเปรียบเทียบกับการใช้งานในตอนเช้าของการโจมตีหลอด:
เวอร์ชันเชิงโต้ตอบที่นี่
ชุดข้อมูล TFL ยังให้ข้อมูลเกี่ยวกับเวลาที่ใช้ในการดำเนินการตามเส้นทาง ดูที่การกระจายระยะเวลาการเดินทางระหว่างกลุ่มควบคุมและการนัดหยุดงานของหลอดในตอนเช้าฉันได้รับฮิสโตแกรมดังต่อไปนี้:
เวอร์ชันเชิงโต้ตอบที่นี่
เมื่อเปรียบเทียบกับทั้งสองมันจะปรากฏว่าโดยเฉลี่ยแล้วการเดินทางใช้เวลานานกว่าในการโจมตีท่อในตอนเช้า - ถังขยะสำหรับกลุ่มควบคุมเกิดขึ้นในเวลาน้อยกว่า 10 นาทีในขณะที่การโจมตีของหลอดในตอนเช้านั้นนานกว่า 16 นาที อย่างเป็นทางการฉันสามารถทดสอบสิ่งนี้โดยใช้การทดสอบ Kolmogorov-Smirnov สองตัวอย่างซึ่งทดสอบว่าตัวอย่างสองตัวอย่างมาจากการแจกแจงเดียวกันหรือไม่ จากการทดสอบนี้ฉันพบว่าตัวอย่างทั้งสองนั้นแตกต่างกันทางสถิติ
เครดิตถึง Eric Hannell สำหรับแรงบันดาลใจดั้งเดิมสำหรับการวิเคราะห์นี้ - ดูโพสต์บล็อกของเขา "แผนที่ของ Bikes of London" ที่นี่