Uma aranha da web que rasteja uivo -abeto para extrair dados de tempo e tempo de conclusão.
Um grande obrigado a HowlongToBeat por fornecer um serviço tão bom com dados tão ricos. Desculpe pela raspagem!
HowlongToBeat (HLTB) é um ótimo site para descobrir os tempos que as pessoas levam para concluir os jogos. Embora maduro com dados, infelizmente não tem uma API. Este projeto elimina todos os jogos conhecidos (no momento da redação) do site, extraindo os dados do jogo, bem como todas as entradas de conclusão existentes.
Este projeto faz parte do meu empreendimento no mundo da ciência de dados.
O HLTB_Game_Spider
em hltb-game.py
raspa todos os jogos disponíveis através da funcionalidade de pesquisa do site. O HLTB_Completions_Spider
em hltb-completions.py
raspa todas as entradas de conclusão substituídas pelo usuário para cada um dos mesmos jogos (embora alguns não tenham entradas e, portanto, faltam).
As colunas HLTB_Game_Spider
extraem (pós-limpeza):
id
- ID do jogo do site.title
- Nome do jogo.main_story
- Tempo médio de conclusão da 'história principal' em horas.main_plus_extras
- Tempo médio de conclusão de 'Principal + Extras' em horas.completionist
- Tempo médio de conclusão de 'conclusão' em horas.all_styles
- Tempo médio de conclusão de 'todos os estilos' em horas.coop
- Tempo médio de conclusão de 'cooperativa' em horas.versus
- tempo médio de conclusão de 'vs.' em horas.type
- Tipo Entrada para diferenciar DLC/Expansion
, Mod
e ROM Hack
de entradas regulares de jogos.developers
- Lista separada por espaço de vírgula de todos os desenvolvedores de uma entrada.publishers
- Lista separada por espaço de vírgula de todos os editores de uma entrada.platforms
- Lista separada por espaço de vírgula de todas as plataformas em que uma entrada está disponível.genres
- Lista de gêneros separados por vírgula para uma entrada.release_na
- Data de lançamento na América do Norte (se disponível).release_eu
- Data de lançamento na Europa (se disponível).release_jp
- Data de lançamento no Japão (se disponível). As colunas HLTB_Completions_Spider
extraem (pós-limpeza):
id
- ID do jogo que pode ser referenciado cruzado com o conjunto de dados acima .type
- Tipo de entrada de conclusão ( Main Story
, Main + Extras
, Completionists
, Co-Op Multiplayer
, Speed Run - Any%
, Speed Run - 100%
).platform
- Plataforma A entrada específica foi concluída.time
- Tempo de entrada em horas e minutos (por exemplo, 2hr 50m
).