Como parte do Serviço de Dados de Transporte Free, os dados de liberação do Transport for London (TFL) sobre viagens recebidas usando seus ciclos Santander - também conhecidos como "Boris Bikes". Os dados remontam a janeiro de 2015, mostrando informações nos locais de início e final da jornada, juntamente com a duração e a hora do dia. Ao combinar essas informações com as coordenadas de cada ponto de aluguel de ciclo, previ a jornada mais provável realizada para cada combinação de início/final, além de olhar para o impacto das greves do tubo no uso da bicicleta.
Para todos os detalhes técnicos, consulte o notebook Python no meu github aqui.
A TFL hospeda todos os dados do ciclo bruto em seu site de dados de ciclismo como uma série de arquivos CSV. Além disso, eles também têm um feed de dados XML ao vivo mostrando o status de cada ponto de bicicleta em Londres, produzindo informações como suas coordenadas, número de docas gratuitas, capacidade total etc.
Para aqueles que desconhecem, abaixo está um mapa de todas as estações de aluguel de ciclo em Londres.
Eu também gerei uma versão interativa sofisticada desse gráfico em Bokeh - clique aqui para vê -lo (é 30MB+, então leva um tempo para carregar). Você pode aumentar o zoom/rolar com esta versão e também informa o nome e a capacidade de cada local.
Dado que existem 777 estações em Londres (pelo menos no momento da redação), isso permite 777 * 776 = 602.952 combinações possíveis de viagem se ignorarmos aqueles que começam e terminam na mesma estação. Olhando para o meu conjunto de dados, encontro cerca de 400 mil rotas exclusivas realmente adotadas.
Para plotar cada rota, eu precisava fazer algumas suposições sobre como cada jornada foi realizada, pois nenhuma informação sobre a rota real seguida está disponível. Por simplicidade, assumi que, para cada emparelhamento inicial/final, todo ciclista seguia a rota mais rápida, conforme prescrito por um planejador de rota on -line. Para tornar essa suposição um pouco mais realista, também reduzi meu conjunto de dados para plotar rotas que levaram duas vezes o tempo que a duração esperada do planejador de rota - ou seja, ignorando jornadas onde o ciclista claramente seguia outra rota (e talvez algumas pessoas terrivelmente lentas ).
Enquanto o Google oferece uma API de instruções de ciclismo, 400.000 solicitações estão muito além do seu limite gratuito de uso da API e muito mais do que estou disposto a pagar. Em vez disso, optei por configurar meu próprio servidor OSRM, que eu poderia consultar quantas vezes gostei. Detalhes de como configurar o servidor podem ser encontrados no GitHub de Ilia.
Depois de calcular os waypoints para cada rota, plotei os 13 milhões de rotas resultantes usando o DataShader, agregando cada rota pelo número de vezes em que foi tomada (ou seja, mais espessa a linha, mais pessoas usavam essa rota). O enredo completo pode ser visto abaixo:
Primeiro, vejamos as estações de bicicleta mais populares de Londres. Definindo um único fluxo como alguém pegando ou atracando uma estação de bicicleta, as melhores estações de bicicleta em Londres são:
Belgrove Street, Kings Cross é a mais popular entre 314.729 fluxos totais (157.025 entradas e 157.704 saídas) em todo o conjunto de dados. O menos popular, por outro lado, é a Bevington Road, North Kensington, com 1.131 fluxos totais (515 entradas e 616 saídas) - no entanto, esta estação foi instalada apenas em 4 de julho de 2016.
Uma maneira alternativa de classificar as estações é através do algoritmo PageRank do Google. A teoria subjacente por trás do algoritmo PageRank é que, se uma estação estiver frequentemente ligada através de outras estações "importantes", a classificação dessa estação aumentará:
Curiosamente, os resultados diferem um pouco da classificação simplesmente com base no número de fluxos. Isso implicaria que, embora as várias estações na fita possam não ter o maior número de fluxos, elas são frequentemente viajadas por outras estações "importantes", sendo muito classificadas.
Se você mora em Londres, provavelmente notou as vans que movem as bicicletas durante o dia - pegando bicicletas de estações completas e redistribuindo -as para estações vazias. Observando a diferença entre as entradas e as saídas, posso mostrar as estações que são mais afetadas por essa incompatibilidade e, portanto, exigem a maior redistribuição.
Ao filtrar o conjunto de dados para olhar apenas nos dias de semana durante a manhã ou à noite, também posso mostrar os padrões de deslocamento dos londrinos:
No exposto, o vermelho representa uma estação com mais motos saindo do que entrando (saídas> entradas), enquanto o verde representa o oposto. Como esperado, de manhã as pessoas viajam para o centro dos subúrbios, enquanto o oposto ocorre à noite. O Canary Wharf também é bastante perceptível no Oriente.
Uma versão interativa deste gráfico pode ser vista aqui - novamente, este é de 30 MB+, então demorará um pouco para carregar.
Em 8 de julho de 2015, houve uma greve de metrô em toda a Londres que ocorreu de 1830 da noite até 2130 no dia seguinte. Enquanto eu tive a opção de trabalhar em casa naquele dia, muitos londrinos tiveram que encontrar meios de transporte alternativos para começar a trabalhar. Ao olhar para esse conjunto de dados, posso tentar ver se algum deles optou por andar de bicicleta para trabalhar.
Como uma primeira métrica simples, o Barchart a seguir mostra o número de viagens realizadas entre 9 de junho e 9 de agosto de 2015:
Versão interativa aqui
Há um pico claro nas viagens realizadas no dia 9 de julho. O segundo pico? Outro ataque de tubo.
Olhando para a manhã de quinta -feira, 9 de julho, entre 0700 e 1000, houve 16.501 viagens realizadas na capital. No mesmo período de tempo, nas quintas -feiras anteriores e após a greve teve 9.111 e 9.215 viagens, respectivamente - então claramente a manhã da greve do tubo teve muito mais viagens. Para testar isso estatisticamente, defini um grupo de controle maior definido em um mês em ambos os lados da greve do tubo, ignorando os fins de semana (um total de 43 dias). Recebemos uma média de 8.579 viagens por manhã neste grupo de controle e, com um desvio padrão de 1.295, o número de viagens feitas na manhã do ataque do tubo é estatisticamente diferente da média (usando um teste t simples).
Olhando para as estações de bicicleta individuais, o gráfico a seguir mostra o número médio de usos matinais (entradas + saídas entre 0700-1000) no grupo controle para os 10 principais pontos de bicicleta, comparando isso com o uso na manhã do ataque do tubo:
Versão interativa aqui
O conjunto de dados TFL também fornece informações sobre o tempo necessário para concluir uma rota. Olhando para a distribuição da duração da jornada entre o grupo de controle e a manhã da greve do tubo, recebo os seguintes histogramas:
Versão interativa aqui
Comparando os dois, parece que, em média, as viagens levaram mais tempo na manhã de ataque do tubo - a lixeira modal para o grupo controle ocorre em menos de 10 minutos, enquanto que para a manhã de greve do tubo é mais de 16 minutos. Formalmente, posso testar isso usando um teste Kolmogorov-Smirnov de duas amostras, que testa se duas amostras vêm da mesma distribuição. Usando este teste, acho que as duas amostras são estatisticamente diferentes.
Crédito a Eric Hannell por parte da inspiração original para esta análise - veja seu post no blog "Um mapa das motos de Londres" aqui.