osrs hiscoresのダウンロード-OSRS osrs hiscoresソースコードのダウンロード

osrs hiscores

その他のソースコード

1.0.0

ダウンロード

OSRS-Hiscores

古い学校のrunescape hiscoresの定量分析。

このリポジトリは次のものに貢献します。

結果のデータセットとともに、OSRSヒスコアをスクレイピングするWebのコード。
アカウントの類似性によってプレーヤーの母集団をclusterする機械学習パイプラインのコード。
プレーヤーの結果を視覚化するためのインタラクティブなWebアプリケーション。

データセットは次のファイルで構成されています。

player-stats.csv ：上位200万のOSRSアカウントの23のスキルすべてのスキルレベル。
cluster-centroids.csv ：類似性に基づいて、プレーヤーデータセットをグループに分割するクラスターの中央値。各重心は、「OSRSスキル」スペースの1〜99の間の値のベクトルです。
player-clusters.csv ：3つの個別のクラスタリング実行のプレーヤーごとのクラスターID。
player-stats-raw.csv ：ランク、レベル、XP、手がかり、ミニゲーム、ボスの統計上位200万人のOSRSプレーヤー。このファイルは、スクレイピングプロセス（1.7 GB）からの生の出力です。

これらのファイルは、ファイルサイズの制約のため、レポにチェックインされません。 Googleドライブから別々にダウンロードできます：https：//bit.ly/osrs-hiscores-dataset

プレーヤーの統計は、2022年7月21日に24時間にわたって公式のOSRS Hiscoresから収集されました。

プロジェクト組織

 ├── LICENSE
├── Makefile         <- Top-level Makefile for building and running project.
├── README.md        <- The top-level README for developers using this project.
│
├── app              <- Application code and assets.
├── bin              <- Utility executables.
│
├── data
│   ├── final        <- The final, canonical data set.
│   ├── interim      <- Intermediate data that has been transformed.
│   └── raw          <- The original, immutable data dump.
│
├── ref              <- Reference files used in data processing.
├── scripts          <- Scripts for the stages of the data processing pipeline.
│
├── src
│   ├── analysis     <- Data science and analytics.
│   └── scrape       <- Scraping hiscores data.
│
├── test             <- Unit tests.
│
├── Procfile         <- Entry point for deployment as a Heroku application.
├── requirements.txt <- Dependencies file for reproducing the project environment.
├── runapp.py        <- Main script for Dash application.
└── setup.py         <- Setup file for installing this project through pip.

使用法

高レベルでは、このリポジトリはデータサイエンスパイプラインを実装しています。

 scrape OSRS hiscores data
         ↓
cluster players by stats
         ↓
project clusters to 3D
         ↓
build application data

結果を視覚化するためのダッシュアプリケーションとともに。

データパイプラインの段階は、各処理段階のトップレベルのmakeターゲットを備えたメイクファイルによって駆動されます。

make init ：プロジェクト環境を設定し、依存関係をインストールします。
make scrape ：公式のOSRSヒスコアからデータをスクレイプし、クリーニングされたデータセットに変換します。
make cluster 。 FAISSライブラリによって実装されたクラスタリングアルゴリズムとしてK-Meansを使用します。
make postprocess ：視覚化のためにクラスターの重心を高次元空間から3Dに投影します（UMAPは、次元削減に使用されるアルゴリズムです）。含まれるプレーヤー母集団に基づいて、各クラスターの四分位数を計算します。
make build-app ：以前のすべての分析結果を使用して、アプリケーションデータとデータベースをビルドします。このターゲットは、URL localhost:27017 （デフォルト）のDockerコンテナ内にMongoDBインスタンスを起動します。

手順2と3は、S3バケツから削り取られたデータとクラスタリングの結果をmake download-datasetするだけで実行するだけで実行することでスキップできます（そしてスキップする必要があります）。これには、 ~/.awsディレクトリにある資格情報を備えたAWSアカウントが必要です。

アプリケーションを起動するには、 make run-app実行し、WebブラウザーでURL localhost:8050にアクセスします。

最終的なアプリケーションは、 make app介して1つのショットで構築および実行できます。このアプリは、データをスクレイピングしてゼロからクラスタリングするのではなく、ダウンロードしたデータを使用します。ターゲットがmake all 、このレポの最終結果を構築するために使用されたものです。データを削減する場合、Hiscores APIの使用量が高いとIPがブロックされる可能性があることに注意してください。このコードの使用において、Jagexのサーバーリソースを節約し、尊重してください。

実行するmake helpを実行して、より多くのトップレベルのターゲットを確認します。

構成

アプリケーションを構成するために、多くの環境変数が設定されています。

OSRS_APPDATA_URI ：アプリケーションデータへのパス.pklファイル（S3またはローカル）
OSRS_MONGO_URI ：MongoDBインスタンスが実行されているURL
OSRS_MONGO_COLL ：この名前でコレクションからプレーヤーのデータを保存/取得

また、データパイプラインの各段階でファイル名を定義する環境変数もあります。

すべての環境変数のデフォルトは、 .env.defaultで定義され、 makeターゲットが実行されるたびにインポートされます。 .envと呼ばれるファイルが存在する場合、そこにある設定は.env.defaultのそれらをオーバーライドします。

依存関係

Python 3.9以降（こちらからダウンロード）
Docker（こちらからダウンロード）
~/.awsディレクトリにインストールされている資格情報を持つAWSアカウント（こちらからアカウントを作成）

方法

OSRSのヒスコアで上位200万人のプレーヤーのデータが削られました。データは、各OSRSスキルおよび全体のXP、ランク、およびレベルで構成され、手がかり、ミニゲーム、ボスのランクとスコアの統計があります。
アカウントデータは、スキルレベルの列のみを保持するために重複排除、ソート、サブサンプリングされました。重複排除の後、1999625の記録は残っていました。各レコードは、23のOSRSスキルのアカウントのレベルを提供する長さ23ベクトルです。
アカウントは、機能列の3つの異なるセットのスキルの類似性に基づいて、2000のクラスターにセグメント化されました。
- all ：すべて23のOSRSスキル
- cb ：7つの戦闘スキル
- noncb ：16の非戦闘スキル
データセットの各分割について、クラスタリングは、各プレーヤーに関連付けられた2000のクラスター重心（次元23、7、または16）とクラスターIDのセットを生成しました。クラスタリングは、L2距離を使用してK-meansの標準的な実装で実行されました。
クラスター重心は、UMAPを使用して周囲の次元から3D空間に投影されました。 UMAPパラメーターn_neighbors=10およびmin_dist=0.25は、 allおよびnoncbに分割されました。 n_neighbors=20およびmin_dist=0.25が分割cbに使用されました。
各スキルの四分位数（0、25、50、75、100パーセンタイル）は、各クラスターに属するアカウントを集約することにより計算されました。
クラスタリングの結果は、シリアル化されたデータファイルに組み立てられました。プレーヤーの統計はデータベースに書き込まれ、迅速な結果の検索を提供しました。最終的なアプリケーションでは、これら2つのリソースを利用しています。

プロジェクトのアイデア

データサイエンスプロジェクトのアイデアは次のとおりです。

OSRS Ironman Hiscoresで同じ分析を実行します。
データセット内でボットクラスターを識別する方法を作成します。
アカウントの他のすべてのスキルを考慮して、1つの未知のスキルをどれだけうまく予測できるかを見てください。他のスキルよりも簡単なスキルはありますか？これは、ゲームメタの観点から説明できますか？
階層的クラスタリングを実行して、スーパークラスターを識別するか、クラスター内の細粒構造を検索します。これらのクラスターに注釈を付けることは、OSRSアカウントの真の分類法に向けた一歩です。
ユーザー名が与えられた場合、同様の統計を持つ他のアカウントを見つける逆ルックアップツールを作成します。

拡大する

追加情報