hltb scraper
1.0.0
一個爬網的網絡蜘蛛來提取遊戲和完成時間數據。
非常感謝Howlongtobeat提供如此豐富的數據提供如此出色的服務。對不起,刮擦!
Howlongtobeat(HLTB)是一個很好的網站,用於發現人們完成遊戲的時間。雖然數據成熟,但不幸的是缺乏API。該項目在網站上刪除了所有已知遊戲(在撰寫本文時),提取遊戲數據以及所有現有的完成條目。
這個項目是我進入數據科學領域的一部分。
hltb-game.py
中的HLTB_Game_Spider
刮擦了通過網站搜索功能可用的所有遊戲。 hltb-completions.py
中的HLTB_Completions_Spider
刮擦每個遊戲中每個遊戲的所有用戶填充完成條目(儘管有些沒有條目,因此將丟失)。
HLTB_Game_Spider
提取列(清潔後):
id
網站的遊戲ID。title
- 遊戲名稱。main_story
小時內“主要故事”的平均完成時間。main_plus_extras
小時內“ main + Extras”的平均完成時間。completionist
- 小時內“完成主義者”的平均完成時間。all_styles
小時內“所有樣式”的平均完成時間。coop
小時內“合作”的平均完成時間。versus
- 平均完成時間為“與”數小時。type
- 類型輸入以區分DLC/Expansion
, Mod
和ROM Hack
與常規遊戲條目。developers
- 逗號空間分開了條目的所有開發人員。publishers
- 逗號空間分開的條目所有發布者的列表。platforms
- 逗號空間分開的所有平台的列表都可以使用條目。genres
- 分類的流派列表。release_na
北美髮布日期(如果有)。release_eu
在歐洲發布日期(如果有)。release_jp
日本發布日期(如果有)。 HLTB_Completions_Spider
提取列(清潔後):
id
可以與上述數據集交叉引用的遊戲ID。type
- 完成輸入的類型( Main Story
, Main + Extras
, Completionists
, Co-Op Multiplayer
, Speed Run - Any%
, Speed Run - 100%
)。platform
- 平台特定條目已完成。time
- 小時和幾分鐘進入時間(例如2hr 50m
)。