hltb scraper
1.0.0
HowlongTobeatをcraうウェブクモがゲームと完了時間データを抽出します。
このような豊かなデータを提供してくれたHowlongtobeatに感謝します。スクレイピングについてごめんなさい!
Howlongtobeat(HLTB)は、人々がゲームを完了するのにかかる時間を発見するための素晴らしいウェブサイトです。データが熟していますが、残念ながらAPIが不足しています。このプロジェクトは、Webサイトですべての既知のゲーム(執筆時点で)を削り、ゲームデータとすべての既存の完了エントリを抽出します。
このプロジェクトは、データサイエンスの世界への私のベンチャーの一部です。
hltb-game.py
のHLTB_Game_Spider
は、Webサイトの検索機能を通じて利用可能なすべてのゲームをスクレイプします。 hltb-completions.py
のHLTB_Completions_Spider
は、同じゲームのそれぞれのすべてのユーザーがサビされた完了エントリをすべてスクレイプします(ただし、エントリがないため、欠落しているものもあります)。
HLTB_Game_Spider
は列を抽出します(洗浄後):
id
ウェブサイトからのゲームID。title
- ゲーム名。main_story
時間の「メインストーリー」の平均完了時間。main_plus_extras
時間の「メイン +エクストラ」の平均完了時間。completionist
- 時間の「完了主義者」の平均完了時間。all_styles
時間の「すべてのスタイル」の平均完了時間。coop
- 時間の「協同組合」の平均完了時間。versus
- 「vs」の平均完了時間数時間で。type
-Entryを入力して、 DLC/Expansion
、 Mod
、およびROM Hack
通常のゲームエントリから区別します。developers
- エントリのすべての開発者のコンマスペース分離リスト。publishers
- エントリのすべての出版社のコンマスペース分離リスト。platforms
- エントリが利用できるすべてのプラットフォームのコンマスペース分離リスト。genres
- エントリ用のジャンルのコンマ分離リスト。release_na
北米でのリリース日(利用可能な場合)。release_eu
ヨーロッパでのリリース日(利用可能な場合)。release_jp
日本でのリリース日(利用可能な場合)。 HLTB_Completions_Spider
は列を抽出します(洗浄後):
id
上記のデータセットで相互参照できるゲームID。type
- 完了エントリのタイプ( Main Story
、 Main + Extras
、 Completionists
、 Co-Op Multiplayer
、 Speed Run - Any%
、 Speed Run - 100%
)。platform
- プラットフォーム特定のエントリが完了しました。time
- 時間と数分での入場時間(例: 2hr 50m
)。