무료 운송 데이터 서비스의 일환으로 Santander Cycles (일명 Boris Bikes)를 사용한 여정에 대한 런던 교통 (TFL)은 릴리스 데이터를 릴리스합니다. 데이터는 2015 년 1 월로 거슬러 올라가서 여행의 시작 및 종료 위치에 대한 정보와 시간과 시간과 함께 정보를 보여줍니다. 이 정보를 각 사이클 고용 지점의 좌표와 결합함으로써 각 시작/종료 조합에 대해 가장 가능성이 높은 여정을 예측하고 튜브 스트라이크가 자전거 사용에 미치는 영향을 살펴 보았습니다.
모든 기술적 인 세부 사항은 여기 내 Github의 Python Notebook을 참조하십시오.
TFL은 Cycling Data 웹 사이트의 모든 원시주기 데이터를 일련의 CSV 파일로 호스팅합니다. 또한 런던의 각 자전거 지점의 상태를 보여주는 실시간 XML 데이터 피드가있어 좌표, 자유 도크 수, 총 용량 등과 같은 정보를 얻습니다.
알지 못하는 사람들을 위해 아래는 런던 전역의 모든 사이클 대여 방송국의지도입니다.
또한 Bokeh 에서이 플롯의 멋진 대화식 버전을 생성했습니다. 이 버전으로 확대/스크롤 할 수 있으며 각 위치의 이름과 용량도 알려줍니다.
런던 전역에 777 개의 스테이션이 있다는 점을 감안할 때 (적어도 글을 쓰는 시점에), 이는 같은 역에서 시작하고 끝나는 것을 무시할 경우 777 * 776 = 602,952 가능한 여행 조합을 허용합니다. 내 데이터 세트를 살펴보면 실제로 400K 고유 한 경로가 실제로 촬영됩니다.
각 경로를 계획하기 위해 실제 경로에 대한 정보가 없으므로 각 여행이 수행되는 방법에 대한 가정을해야했습니다. 단순화를 위해 각 시작/종료 페어링에 대해 모든 사이클리스트는 온라인 노선 플래너가 규정 한 가장 빠른 경로를 취했다고 가정했습니다. 이 가정을 좀 더 현실적으로 만들기 위해, 나는 또한 데이터 세트를 노선 플래너의 예상 기간보다 최대 두 배나 길어진 경로 만 줄인다. ).
Google은 사이클링 방향 API를 제공하지만 400,000 요청은 무료 API 사용 제한을 훨씬 뛰어 넘고 기꺼이 지불 할 것보다 훨씬 많습니다. 대신, 나는 내 자신의 OSRM 서버를 설정하기로 결정했는데, 이는 내가 좋아하는만큼 쿼리 할 수있었습니다. 서버를 설정하는 방법에 대한 자세한 내용은 Ilia의 Github에서 찾을 수 있습니다.
각 경로에 대한 웨이 포인트를 계산 한 후에는 DataShader를 사용하여 1,300 만 개의 경로를 플로팅하여 각 경로를 횟수로 집계했습니다 (즉, 선이 두꺼울수록 사람들이 그 경로를 더 많이 사용했습니다). 전체 플롯은 아래에서 볼 수 있습니다.
먼저 런던에서 가장 인기있는 자전거 방송국을 살펴 보겠습니다. 단일 흐름을 누군가로 자전거를 타거나 스테이션을 도킹하는 사람으로 정의하면 런던 전역의 최고 자전거 방송국은 다음과 같습니다.
Belgrove Street, Kings Cross는 전체 데이터 세트에서 총 314,729 개의 총 흐름 (157,025 개의 유입 및 157,704 개의 유출)으로 가장 인기가 있습니다. 반면에 가장 인기있는 것은 North Kensington의 Bevington Road이며, 총 흐름 (515 개의 유입 및 616 개의 유출)이 있지만이 스테이션은 2016 년 7 월 4 일에만 설치되었습니다.
스테이션 순위를 매기는 대안적인 방법은 Google의 PageRank 알고리즘을 통한 것입니다. PageRank 알고리즘의 기본 이론은 스테이션이 다른 "중요한"스테이션을 통해 자주 연결되면 해당 스테이션의 순위가 증가한다는 것입니다.
흥미롭게도 결과는 단순히 흐름 수에 따라 순위와 상당히 다릅니다. 이것은 가닥의 다양한 스테이션이 가장 많은 수의 흐름을 가질 수 없지만 다른 "중요한"스테이션을 통해 자주 이동하여 높은 순위가 높다는 것을 의미합니다.
런던에 살고 있다면, 하루 종일 자전거를 옮기는 밴을 발견했습니다. 전체 스테이션에서 자전거를 가져 와서 빈 방송국으로 재분배합니다. 유입과 유출의 차이점을 살펴보면이 불일치에 의해 최악의 스테이션을 보여줄 수 있으므로 가장 재분배해야합니다.
아침이나 저녁에 평일 만 볼 수 있도록 데이터 세트를 필터링하면 런던 사람들의 통근 패턴을 보여줄 수 있습니다.
위에서, 빨간색은 들어오는 것보다 더 많은 자전거가 떠나는 스테이션 (유출> 유입)을 나타내며 녹색은 그 반대를 나타냅니다. 예상 한 바와 같이, 아침에 사람들은 교외에서 중앙으로 출퇴근하는 동안 저녁에는 반대가 발생합니다. Canary Wharf도 동쪽에서도 눈에 띄게 나타납니다.
이 그래프의 대화식 버전은 여기에서 볼 수 있습니다. 다시 한번, 이것은 30MB+이므로로드하는 데 시간이 걸립니다.
2015 년 7 월 8 일, 1830 년부터 저녁에 2130 년까지 런던 전역의 튜브 파업이 발생했습니다. 다행스럽게도 그날 집에서 일할 수있는 선택권이 있었지만 많은 런던 사람들은 대체 운송 수단을 찾아야했습니다. 이 데이터 세트를 살펴보면 대신 일치하기로 선택했는지 확인할 수 있습니다.
간단한 첫 번째 메트릭으로서, 다음 Barchart는 2015 년 6 월 9 일과 8 월 9 일 사이에 취한 여정 수를 보여줍니다.
대화식 버전은 여기에 있습니다
7 월 9 일에 취한 여행에는 분명한 급증이 있습니다. 두 번째 스파이크? 또 다른 튜브 스트라이크.
7 월 9 일 목요일 아침 0700에서 1000 사이의 아침을 살펴보면 수도에서 16,501 개의 여행이 진행되었습니다. 파업 전 목요일에 같은 기간과 파업 이후에 각각 9,111 명과 9,215 번의 여행이 있었기 때문에 튜브 스트라이크 아침에는 더 많은 여행이있었습니다. 통계적으로 테스트하기 위해, 나는 주말 (총 43 일)을 무시하고 튜브 스트라이크의 한 달에 설정된 더 큰 대조군 그룹을 정의했습니다. 우리는이 통제 그룹에서 아침에 평균 8,579 개의 여행을받으며, 1,295의 표준 편차로 튜브 스트라이크의 아침에 취한 여정 수는 평균과 통계적으로 다릅니다 (간단한 t- 검정 사용).
개별 자전거 스테이션을 살펴보면 다음 그래프는 상위 10 개 자전거 포인트에 대한 제어 그룹의 평균 오전 용도 (0700-1000 사이의 유출 + 유출)를 보여줍니다.
대화식 버전은 여기에 있습니다
TFL 데이터 세트는 또한 경로를 완료하는 데 걸리는 시간에 대한 정보를 제공합니다. 제어 그룹과 튜브 스트라이크 아침 사이의 여행 지속 시간의 분포를 살펴보면 다음 히스토그램을 얻습니다.
대화식 버전은 여기에 있습니다
이 둘을 비교하면 평균적으로 여정은 튜브 스트라이크 오전에 실제로 더 오래 걸리는 것으로 보입니다. 제어 그룹의 모달 빈은 10 분 이내에 발생하는 반면 튜브 스트라이크의 경우 16 분이 넘습니다. 공식적으로 나는 두 샘플 Kolmogorov-Smirnov 테스트를 사용하여 이것을 테스트 할 수 있으며,이 테스트는 두 샘플이 동일한 분포에서 나오는지 테스트합니다. 이 테스트를 사용하여 두 샘플이 통계적으로 다르다는 것을 알았습니다.
이 분석에 대한 원래 영감을 얻은 것에 대해 Eric Hannell에게 크레딧을 제공합니다. 그의 블로그 게시물 "런던 자전거의지도"를 참조하십시오.