Une araignée Web qui rampe HowlongTobeat pour extraire les données de temps et de temps d'achèvement.
Un grand merci à HowlongTobeat d'avoir fourni un si grand service avec des données aussi riches. Désolé pour le grattage!
HowlongTobeat (HLTB) est un excellent site Web pour découvrir des moments que les gens prennent pour terminer les jeux. Bien que mûr avec des données, il manque malheureusement d'une API. Ce projet gratte tous les jeux connus (au moment de la rédaction) sur le site Web, en extraction des données de jeu ainsi que toutes les entrées d'achèvement existantes.
Ce projet fait partie de mon entreprise dans le monde de la science des données.
Le HLTB_Game_Spider
dans hltb-game.py
gratte tous les jeux disponibles via la fonctionnalité de recherche du site Web. Le HLTB_Completions_Spider
dans hltb-completions.py
arrache toutes les entrées d'achèvement soumises par l'utilisateur pour chacun du même jeu (bien que certains aient aucune entrée et manquent donc).
Les colonnes HLTB_Game_Spider
extraient les colonnes (post-nettoyage):
id
- ID de jeu du site Web.title
- Nom de jeu.main_story
- Temps d'achèvement moyen de «l'histoire principale» en quelques heures.main_plus_extras
- Temps d'achèvement moyen de «Main + Extras» en heures.completionist
- Temps d'achèvement moyen de «Complétionniste» en heures.all_styles
- Temps d'achèvement moyen de «tous les styles» en heures.coop
- Temps d'achèvement moyen de la «coopérative» en heures.versus
- Temps d'achèvement moyen de «Vs.» en heures.type
- Type Entrée pour différencier DLC/Expansion
, Mod
et ROM Hack
des entrées de jeu régulières.developers
- Liste séparée de tous les développeurs d'une virgule d'une entrée.publishers
- Liste séparée de l'espace de virgule de tous les éditeurs d'une entrée.platforms
- Liste séparée de toutes les plates-formes sur les plates-formes sur lesquelles une entrée est disponible.genres
- Liste des genres séparés par des virgules pour une entrée.release_na
- Date de sortie en Amérique du Nord (si disponible).release_eu
- Date de sortie en Europe (si disponible).release_jp
- Date de sortie au Japon (si disponible). Les colonnes HLTB_Completions_Spider
extraient les colonnes (post-nettoyage):
id
- ID de jeu qui peut être référencé avec l'ensemble de données ci-dessus .type
- Type d'entrée d'achèvement ( Main Story
, Main + Extras
, Completionists
, Co-Op Multiplayer
, Speed Run - Any%
, Speed Run - 100%
).platform
- Plateforme sur laquelle l'entrée particulière a été terminée.time
- Entrée en heures et minutes (par exemple, 2hr 50m
).