hltb scraper
1.0.0
一个爬网的网络蜘蛛来提取游戏和完成时间数据。
非常感谢Howlongtobeat提供如此丰富的数据提供如此出色的服务。对不起,刮擦!
Howlongtobeat(HLTB)是一个很好的网站,用于发现人们完成游戏的时间。虽然数据成熟,但不幸的是缺乏API。该项目在网站上删除了所有已知游戏(在撰写本文时),提取游戏数据以及所有现有的完成条目。
这个项目是我进入数据科学领域的一部分。
hltb-game.py
中的HLTB_Game_Spider
刮擦了通过网站搜索功能可用的所有游戏。 hltb-completions.py
中的HLTB_Completions_Spider
刮擦每个游戏中每个游戏的所有用户填充完成条目(尽管有些没有条目,因此将丢失)。
HLTB_Game_Spider
提取列(清洁后):
id
网站的游戏ID。title
- 游戏名称。main_story
小时内“主要故事”的平均完成时间。main_plus_extras
小时内“ main + Extras”的平均完成时间。completionist
- 小时内“完成主义者”的平均完成时间。all_styles
小时内“所有样式”的平均完成时间。coop
小时内“合作”的平均完成时间。versus
- 平均完成时间为“与”数小时。type
- 类型输入以区分DLC/Expansion
, Mod
和ROM Hack
与常规游戏条目。developers
- 逗号空间分开了条目的所有开发人员。publishers
- 逗号空间分开的条目所有发布者的列表。platforms
- 逗号空间分开的所有平台的列表都可以使用条目。genres
- 分类的流派列表。release_na
北美发布日期(如果有)。release_eu
在欧洲发布日期(如果有)。release_jp
日本发布日期(如果有)。 HLTB_Completions_Spider
提取列(清洁后):
id
可以与上述数据集交叉引用的游戏ID。type
- 完成输入的类型( Main Story
, Main + Extras
, Completionists
, Co-Op Multiplayer
, Speed Run - Any%
, Speed Run - 100%
)。platform
- 平台特定条目已完成。time
- 小时和几分钟进入时间(例如2hr 50m
)。