Una araña web que se arrastra HowlongTobeat para extraer datos de juego y tiempo de finalización.
Muchas gracias a HowlongTobeat por proporcionar un servicio tan excelente con datos tan ricos. ¡Perdón por el raspado!
HowlongTobeat (HLTB) es un gran sitio web para descubrir los tiempos que las personas toman para completar los juegos. Mientras está lleno de datos, desafortunadamente carece de una API. Este proyecto raspa todos los juegos conocidos (al momento de escribir) en el sitio web, extrayendo los datos del juego y todas las entradas de finalización existentes.
Este proyecto es parte de mi empresa en el mundo de la ciencia de datos.
HLTB_Game_Spider
en hltb-game.py
raspa todos los juegos disponibles a través de la funcionalidad de búsqueda del sitio web. El HLTB_Completions_Spider
en hltb-completions.py
raspa todas las entradas de finalización enviadas por el usuario para cada uno del mismo juego (aunque algunas no tienen entradas y, por lo tanto, faltarán).
El HLTB_Game_Spider
extrae columnas (post-limpieza):
id
- ID del juego desde el sitio web.title
- Nombre del juego.main_story
- Tiempo de finalización promedio de 'historia principal' en horas.main_plus_extras
: tiempo de finalización promedio de 'Main + Extras' en horas.completionist
: tiempo de finalización promedio de 'finalista' en horas.all_styles
- Tiempo de finalización promedio de 'todos los estilos' en horas.coop
- Tiempo de finalización promedio de 'Co -op' en horas.versus
- Tiempo de finalización promedio de 'Vs.' en horas.type
: escriba la entrada para diferenciar DLC/Expansion
, Mod
y ROM Hack
de las entradas regulares del juego.developers
- Lista separada por el espacio de coma de todos los desarrolladores de una entrada.publishers
- Lista separada por el espacio de coma de todos los editores de una entrada.platforms
: lista separada por el espacio de coma de todas las plataformas en la que está disponible una entrada.genres
- Lista de géneros separados por comas para una entrada.release_na
- Fecha de lanzamiento en América del Norte (si está disponible).release_eu
- Fecha de lanzamiento en Europa (si está disponible).release_jp
- Fecha de lanzamiento en Japón (si está disponible). El HLTB_Completions_Spider
extrae columnas (post-limpieza):
id
- ID del juego que puede referenciarse con el conjunto de datos anterior .type
- Tipo de entrada de finalización ( Main Story
, Main + Extras
, Completionists
, Co-Op Multiplayer
, Speed Run - Any%
, Speed Run - 100%
).platform
- Plataforma La entrada en particular se completó.time
: hora de entrada en horas y minutos (por ejemplo, 2hr 50m
).