このリポジトリの README は、オープンソースのフットボール分析コミュニティに貢献したすべての人々によって作成された、学習教材、データ ソース、ライブラリ、論文、ブログなどのリソース ガイドです。この GitHub リポジトリとリソースのリストは常に進行中であり、新しいリソースが半定期的に追加されます。見逃しているリソースがあると思われる場合は、お気軽にプル リクエストを作成するか、上記のリンクからメッセージを送ってください。できるだけ早くご連絡いたします。
このリポジトリが気に入っていただけましたら、お気軽に (右上) を押してください。乾杯!
このリポジトリと作成者の詳細については、次を参照してください。
このリポジトリのコードは、Python と R の両方を組み合わせて書かれています。始める前に、次の前提条件がインストールされていることを確認してください。
一般的な Python データ サイエンス ライブラリ:
NumPy
。pandas
。matplotlib
とSeaborn
。そしてscitkit-learn
とSciPy
。サッカー分析 Python ライブラリ:
kloppy
- Koen Vossen と Jan Van Haaren による追跡およびイベント データを標準化するためのパッケージ。 YouTube チュートリアルを参照してください [リンク]floodlight
by Floodlight-sports - スポーツ データの合理的な分析のためのパッケージ。これは科学計算に明確に焦点を当てて設計されており、numpy や pandas などの人気のあるライブラリに基づいて構築されています。次のドキュメントを参照してください [リンク]matplotsoccer
- Tom Decroos によるサッカー イベント データを視覚化するための Python ライブラリmplsoccer
- matplotlib でサッカーのピッチをプロットするための Python ライブラリ (Andrew Rowlinson 著)PySport Soccer
を含むPySport
- このセクションで言及されているものの多くを含むオープンソース スポーツ パッケージのコレクション (Koen Vossen 作成)ScraperFC
by Owen Seymour - FiveThirtyEight データ、FBref、Understat、Club Elo、Capology、および TransferMarkt からデータをスクレイピングする Python パッケージ。以前に WhoScored を通じて Opta イベント データをスクレイピングしました?マッチ センター (機能は現在削除されていますが、このコードを見つけるには古いバージョンと GitHub リポジトリを参照してください)statsbombapi
- Python API ラッパーと StatsBomb データのデータクラスstatsbombpy
- StatsBomb データにアクセスするために Francisco Goitia によって書かれた Python ライブラリsocceraction
- サッカー選手が実行する個々のアクションを評価するための Python ライブラリです。 Tom Decroos らによる Expected Threat (xT) 実装が含まれています。アル。soccer_xg
by ML KU Leuven - サッカーの予想ゴール (xG) モデルをトレーニングおよび分析するための Python パッケージsoccerdata
- Club Elo、ESPN、FBref、FiveThirtyEight、Football-Data.co.uk、SoFIFA、および WhoScored からサッカー データをスクレイピング by Pieter Robberechtstyrone_mings
- Python TransferMarkt ウェブスクレイパー一般的な R データ サイエンス ライブラリ:
フットボール分析 R ライブラリ:
ggsoccer
- R のサッカー視覚化ライブラリggshakeR
- 公開されているサッカー データを処理する分析および視覚化 R パッケージ。次のドキュメントを参照してください [リンク]StatsBombR
- ログイン資格情報を使用して API から、または Open Data GitHub リポジトリから無料で StatsBomb データを R に簡単にストリーミングするための R パッケージsoccermatics
by Joe Gallagher - サッカーの追跡とイベント データの視覚化と分析のための R パッケージworldfootballR
by Jason Zivkovic - FBref、TransferMarkt、Understat、fotmob からワールド フットボール (サッカー) データを抽出するための R パッケージ (このパッケージの使用方法に関するガイドを参照 [リンク])?戻る
この GitHub リポジトリの内容は次のように構成されています。
eddwebster/football_analytics/ ➡️ central repository of code and analysis by Edd Webster ?⚽
│
├── dashboards/ ➡️ store of Tableau dashboards used for analysis ?
│
├── data/ ➡️ a selection of raw and processed data extracts by various providers ??
│ ├── capology
│ ├── davies
│ ├── elo
│ ├── fbref
│ ├── fifa
│ ├── guardian
│ ├── metrica-sports
│ ├── opta
│ ├── reference
│ ├── sb
│ ├── shots
│ ├── stats-perform
│ ├── stratabet
│ ├── tm
│ ├── touchline-analytics
│ ├── twenty-first-group
│ ├── understat
│ └── wyscout
│
├── docs/ ➡️ store of documentation for different vendors ?
│ ├── centre-circle
│ ├── metrica-sports
│ ├── opta
│ ├── sb
│ ├── shots
│ ├── stratabet
│ └── wyscout
│
├── fonts/ ➡️ store of custom and externally acquired fonts used for data visualisation ✍️?
│
├── ? .gitignore ➡️ ignore unnecessary files for version control with Git ?
│
├── img/ ➡️ store of images used for analysis including club badges, vendor logos and official media images ??
│ ├── club_badges/ # badges for football clubs
│ ├── edd_webster/ # images related to Edd Werbster
│ ├── fig/ # generated figures derived from analysis and reports in this repository
│ ├── gif/ # GIF images
│ ├── memes/ # memes
│ ├── pitches/ # images of football pitches and goals used mostly for Tableau visualisation
│ ├── players/ # images of football players
│ ├── vendors/ # logos for data vendors e.g. StatsBomb
│ ├── vizpiration/ # high-quality visualisations and analysis from renowned members of the football analytics community
│ └── websites-blogs/ # logos for data analysis websites and blogs e.g. Club Elo
│
├── scripts/ ➡️ store of libraries and Python and open source code ??
│
├── notebooks/ ➡️ Jupyter notebooks for exploration and visualisation
│ ├── 1_data_scraping/ # notebooks with code to acquire data via webscraping
│ │ ├── Capology Player Salary Web Scraping.ipynb
│ │ ├── FBref Player Stats Web Scraping.ipynb
│ │ └── TransferMarkt Player Bio and Status Web Scraping.ipynb
│ │
│ ├── 2_data_parsing/ # notebooks with code to acquire data via APIs
│ │ ├── Elo Team Ratings Data Parsing.ipynb
│ │ ├── StatsBomb Data Parsing.ipynb
│ │ └── Wyscout Data Parsing.ipynb
│ │
│ ├── 3_data_engineering/ # notebooks with code to engineer raw, unprocessed data to processed data
│ │ ├── Capology Player Salary Data Engineering.ipynb
│ │ ├── Centre Circle Opta CPL Data Engineering.ipynb
│ │ ├── FBref Player Stats Data Engineering.ipynb
│ │ ├── Opta #mcfcanalytics PL 2011-2012.ipynb
│ │ ├── StatsBomb Data Engineering.ipynb
│ │ ├── The Guardian Player Recorded Transfer Fees Data Engineering.ipynb
│ │ ├── TransferMarkt Historical Market Value Data Engineering.ipynb
│ │ ├── TransferMarkt Player Bio and Status Data Engineering.ipynb
│ │ ├── TransferMarkt Player Recorded Transfer Fees Data Engineering.ipynb
│ │ ├── Understat Data Engineering.ipynb
│ │ └── Wyscout Data Engineering.ipynb
│ │
│ ├── 4_data_unification/ # notebooks with code to unify disperate datasets
│ │ └── Unification of Aggregated Seasonal Football Datasets.ipynb
│ │
│ └── 5_data_analysis_and_projects # notebooks with code for example projects and analysis
│ ├── player_similarity_and_clustering
│ │ └── PCA and K-Means Clustering of 'Piqué-like' Defenders.ipynb
│ │
│ ├── tracking_data
│ │ ├── metrica_sports
│ │ │ └── Metrica Tracking Data EDA.ipynb
│ │ └── signality
│ │ ├── Signality Tracking Data Engineering.ipynb
│ │ └── Signality Tracking Data EDA.ipynb
│ │
│ └── xg_modeling
│ ├── shots_dataset
│ │ ├── Logistic Regression Expected Goals Model.ipynb
│ │ └── XGBoost Expected Goals Model.ipynb
│ └── opta_dataset
│ └── raining of an Expected Goals Model Using Opta Event Data.ipynb
│
├── ? README.md ➡️ project description and setup guide for better structure and collaboration ?
│
├── research/ ➡️ central repository of research and publicly available resources in football analytics ?⚽
│ ├── documents/ # documents
│ ├── papers/ # published academic papers and literature
│ └── slides/ # PowerPoint slides for published research
│
└── video/ ➡️ store of videos used or generated for analysis ??
?戻る
このリポジトリのコードはほとんどが Jupyter ノートブックまたは Python スクリプトで書かれており、次のワークフローで構成されています。
?戻る
このリポジトリのノートブックで設計されたデータを使用して作成された Tableau ダッシュボードについては、私の Tableau Public プロファイル (public.tableau.com/profile/edd.webster) を参照してください。
Tableau ダッシュボードの例:
?戻る
このリソース ガイドが公開された後、そのギャップを埋めるために使用された次のリソースに感謝します。
analytics-handbook
GitHub リポジトリ (Devin Pleuler 著) - サッカー分析を始めるための GitHub リポジトリawesome-football
byfootball.db (Gerald Bauer) - 素晴らしいサッカー データセットのコレクションawesome-football-analytics
by Diego Pastorawesome-soccer-analytics
by Matias MasciotoguideR
by Dom Samangy - 200 以上の R リソース、100 以上の Python チュートリアル、30 以上のパッケージ、フォローする 25 以上のアカウント、10 冊のチートシート、およびいくつかの無料の書籍とブログを含む Google スプレッドシート。 GitHub リポジトリ [リンク]soccer-analytics-resources
Jan Van Haaren による Github リポジトリ?戻る
サッカーにおけるデータの使用に初めて取り組む人向けの優れたリソース:
soccer-analytics-handbook
Devin Pleuler 著awesome-football-analytics
by Diego Pastorawesome-soccer-analytics
by Matias Masciotosoccer-analytics-resources
by Jan Van Haaren?戻る
トラッキング データ、イベント データ、集計された選手パフォーマンス データ、詳細な試合統計、怪我の記録、移籍金額など、フットボールに関連する公開されているデータ ソースとデータセット。
このリポジトリのコードと分析で使用されているデータ ソースは、このリポジトリのdata
サブフォルダまたは Google ドライブ (GitHub の 100 MB のファイル制限のため) [リンク] にあります。ただし、このリポジトリ内のすべてのコードでは、分析と視覚化に使用される出力に従ってデータセットをスクレイピング、解析、エンジニアリングできるようにする必要があります。
イベント データや追跡データなど、利用可能なさまざまな種類のデータの詳細については、「データはどこで入手できますか?」を参照してください。 Devin Pleuler のsoccer_analytics_handbook
[リンク] のセクション。
利用可能な無料のフットボール データ リソースの簡単な説明については、James Nalton による次の Twitter スレッド [リンク] を参照してください。
イベント データは、試合中に発生する各オンザボール イベントのラベル付きデータです。データはテレビ映像から手動で収集されます。データ収集の詳細については、次のビデオ [リンク] をご覧ください。
イベント データの各一致には、プロバイダーに応じて約 2 ~ 3,000 の個別のイベント (行) が含まれます。
このデータの主なプロバイダーは、StatsBomb、Stats Perform (正式には Opta)、および Wyscout です。
名前 | コメント | ソース/データを取得する方法 |
---|---|---|
StatsBomb オープンデータ |
| StatsBomb オープン データ GitHub リポジトリ |
StrataData by StrataBet | チャンス撮影データ提供 | (2018 年以降) 利用できなくなりましたが、古い分析 (これを含む) の GitHub リポジトリで見つけることができます [リンク]。 |
サッカーのビデオと選手の位置データセット | オスロ大学が提供する、エリート サッカー選手の動きと対応するビデオのデータセット。付属の論文を参照してください [リンク] | [リンク] (機能しなくなったようです) |
オプタ | ヨーロッパの「ビッグ 5」リーグを含む 20 以上のリーグのイベント データ (一部は 09/10 シーズンに遡ります) | WhoScored のスクレイピングを通じてデータが利用可能?次の方法でマッチ センターを実行します。
|
Opta (11/12 サンプル データセット) | #mcfcanalytics イニシアチブの一環として、11/12 シーズンの試合ごとに集計された選手パフォーマンス データと、11/12 のマンチェスター シティ対ボルトン ワンダーズの試合の F24 イベント データ | 2012 年以降は利用できなくなりましたが、古い分析 (この分析を含む) の GitHub リポジトリで見つけることができます。 |
アンダースタット | ヨーロッパの「ビッグ 5」リーグとロシア プレミア リーグの xG 値を含むシュート データとメタ データ | このデータには、次の方法でアクセスできます。
|
ワイスカウト | ルカ・パパラルド、アレッシオ・ロッシ、パオロ・シンティアが提供した、ヨーロッパの「ビッグ 5」リーグ、ユーロ 2016 チャンピオンシップ、および 2018 年ワールドカップの 17/18 シーズンのイベント データ。彼らの論文「サッカー競技における時空間試合イベントの公開データセット」を参照してください。 | フィグシェア |
追跡データは、フィールド上のすべてのプレーヤーとボールの X 座標と Y 座標を 1 秒あたりの回数 (通常は 10 ~ 25) 記録します。このため、データセットは非常に大きく、ゲームあたり約 200 ~ 300 万行のイベント データよりもはるかに大きくなります。
データはスタジアムに設置されたカメラによって収集されるため、広く利用できるわけではなく、チームは通常、自分のリーグ内のデータにのみアクセスできます。
このデータの主なプロバイダーは、Second Spectrum、STATS Perform、Metrica Sports、および Signality です。
名前 | コメント | ソース/データを取得する方法 |
---|---|---|
Ricardo Tavares による Last Row Tracking のようなデータ | Ricardo Tavares によって収集された追跡のようなデータ。このデータが使用された Liverpool Analytics Challenge を参照してください (優勝者については Friends of Tracking [リンク] で説明されています)。 | GitHub リポジトリ |
Metrica Sports サンプル トラッキングと対応するイベント データ | 同期されたイベントと追跡データの 3 つのサンプル一致。ピッチ コントロール モデリングを含むこのデータを操作するコードについては、Laurie Shaw によるLaurieOnTracking GitHub リポジトリと、対応する Friends of Tracking チュートリアルを参照してください。 | GitHub リポジトリ |
信号追跡データ | アルスヴェンスカンの 3 試合の追跡データ - ハンマルビー対 IF エルフスボリ (2019/07/22)、ハンマルビー 5 対 1 オレブロー (2019/09/30)、ハンマルビー vs マルメ FF (2019/10/20)。 | このデータは、2020 年のフットボールの数学モデリング コースの一部として利用可能になりました。データをダウンロードするためのパスワードは公開されていませんが、Uppsala Mathematical Modeling of Football Slack グループ [リンク] で見つけることができます。アクセスについては、Novosom Salvador Twitter および [email protected] までご連絡いただくか、私自身までお気軽にご連絡ください。ハンマルビー対オレブロ戦の後半は未完であることに注意してください。 |
ブロードキャスト トラッキングは、コンピューター ビジョン技術を使用してブロードキャスト映像から収集されます。スタジアム内の追跡データとは異なり、データセットは完全ではなく、放送映像のショットから選手が欠けています。ただし、大きな利点は、収集されるデータがはるかに安価であり、利用可能なリーグの範囲がはるかに広いため、採用分析などのタスクに非常に役立ちます。
このデータの主なプロバイダーは SkillCorner と Sportlogiq です。
名前 | コメント | ソース/データを取得する方法 |
---|---|---|
SkillCorner ブロードキャスト トラッキング データ | イングランド プレミア リーグ、フランス L1、スペイン リーガ、イタリア セリエ A、ドイツ ブンデスリーガのリーグ チャンピオンと準優勝の 2019/2020 試合を含む、9 試合の放送追跡データ。ブロードキャスト追跡データとそのユースケースの詳細については、次の Medium 記事 [リンク] を参照してください。 | GitHub リポジトリ |
名前 | コメント | ソース/データを取得する方法 |
---|---|---|
DAVIES モデリングデータ | アメリカサッカー分析のためのサム・ゴールドバーグとマイク・インブルジオによる推定選手評価データ。 DAVIES について詳しくは、次のブログ投稿 [リンク] を参照してください。 | 光るアプリ |
FBref は、StatsPerform によって提供される、シーズンごとに集計されたプレーヤーのパフォーマンス データです。 | 以下の競技会のプレーヤーの集計パフォーマンス データ:
| 注: 2022 年 10 月に、FBref が統計に使用するデータ プロバイダーが StatsBomb から StatsPerform に変更されました。したがって、次のスクレイピング コードは、現在動作しているソリューションとアーカイブされたソリューションに分割されています。
|
統計 パフォームおよびセンター サークル カナディアン プレミア リーグ データ | 集約されたプレーヤーのパフォーマンスデータ | Googleドライブ |
名前 | コメント | ソース/データを取得する方法 |
---|---|---|
エロクラブランキング | 過去の結果に基づいたクラブ フットボールの Elo レーティングにより、各クラブの強さを推定し、将来の予測が可能になります。 | データは次の方法で入手できます。
|
ユーロクラブインデックス | ヨーロッパ諸国の最高ディビジョンにあるサッカーチームのランキング。これは、特定の時点での相対的なプレー上の強みと、時間の経過に伴うプレー上の強みの発展を示します。これらのランキングの計算に使用される方法の詳細については、次のページを参照してください [リンク] | リンク |
FiveThirtyEightクラブランキング | 世界のクラブサッカーランキング。 637 の国際クラブチームをサッカーパワーインデックスで比較する方法 | データは次の方法で入手できます。
|
Opta パワーランキング | Opta パワーランキング | データは次の方法で入手できます。
|
UEFAクラブ係数 | UEFA クラブ係数ランキングは、UEFA クラブ競技会におけるヨーロッパのすべてのクラブの結果に基づいています。 | データは次の方法で入手できます。
|
世界のサッカー/サッカークラブランキング | クラブランキングサイト | リンク |
名前 | コメント | ソース/データを取得する方法 |
---|---|---|
ブンデスリーガの身体データ | AWS を利用したブンデスリーガの選手統計 | リンク (CSV にスクレイピングされていない) |
名前 | コメント | ソース/データを取得する方法 |
---|---|---|
2018 FIFA ワールドカップのメンバー | 2018 FIFA ワールドカップの名簿に記載されている選手のゴール、キャップ、クラブ、生年月日。出典: data.world | エクセル |
エンサッカーデータ | イングランドとヨーロッパのサッカー結果 1871-2017 | GitHub リポジトリ |
FIFAワールドカップの試合結果 | 1930 年から 2014 年までの FIFA ワールドカップの試合の組み合わせと結果。出典: data.world | エクセル |
フォトモブ | xG およびショット後の xG を含むチームおよびプレーの統計を含むデータセット。 | このデータは以下を使用してスクレイピングできます。
|
サッカーのラインナップ | ユーザーがクラウドソーシングで作成したチームの戦術やフォーメーションのデータベース。 | リンク |
international_results | 1872 年の最初の公式試合から 2022 年までの国際サッカー試合の 44,353 試合の結果のリポジトリ。 | GitHub リポジトリ |
スマータースカウト | 世界中のサッカー選手のパフォーマンスを評価するためのスカウティングおよび選手評価情報プラットフォーム。このプラットフォームは、プレイヤーの勝利への貢献、プレイ スタイル、スキル レベルを評価するために、North Yard Analytics の Dan Altman によって開発されました。注:これはサブスクリプションサービスです。 | リンク |
ソファスコア | ライブスコア、ラインナップ、順位表、ヒートマップ、チーム、コーチ、選手の基本データ | リンク |
サッカーウェイ | マッチシートデータ | リンク |
名前 | コメント | ソース/データを取得する方法 |
---|---|---|
カポロジー | 選手の給与 | Capology データをスクレイピングするか、データ サブフォルダーに保存されている CSV ファイルにアクセスするための Python コードについては、Capology Player Salary Web Scraping ノートブックを参照してください。 |
KPMG フットボール ベンチマーク | 選手評価データ | |
Football Master スプレッドシートの価格 | フットボールの財務/ビジネス側面からのデータ (キーラン・マグワイア著) | リンク |
スポットラック | プレミアリーグ、MLS、NWSLの選手契約、給与、移籍情報 | |
トランスファーマーケット | 選手の経歴、契約内容、推定価値データ | このデータには、次の方法でアクセスできます。
|
ガーディアンプレイヤー転送データ | Tom Worville による照合 (ツイート [リンク] を参照) | GitHub |
名前 | コメント | ソース/データを取得する方法 |
---|---|---|
ベットエクスプローラー | オッズデータ | リンク |
FiveThirtyEight サッカー予測データベース | サッカーの予測データ | リンク |
Football-Data.co.uk | 無料の賭けとサッカーの賭け、過去のサッカーの結果と賭けのオッズのアーカイブ、ライブスコア、オッズの比較、賭けのアドバイスと賭けの記事 | リンク |
1872 年から 2020 年までの国際サッカーの結果 | Mart Jürisoo による 40,000 を超える国際サッカー結果の最新データセット | リンク |
独自のイベント データをプロットする方法の詳細については、Mark Wilkin の Twitter スレッドを参照してください [リンク]:
名前 | コメント | ソース/データを取得する方法 |
---|---|---|
xTグリッド | Karun Singh によって決定された 2017-18 プレミア リーグ シーズン (12x8 グリッド) のリーグ全体の予想脅威 (xT) 値。 xT の詳細については、Karun のブログ投稿 [リンク] を参照してください。 | リンク |
EPV グリッド | ローリー・ショーによって決定された予想ポゼッション値のグリッド。詳細については、次の講義を参照してください [リンク] | リンク |
ピッチのゾーン | ピッチをゾーンに分割し、視覚化で使用します。作成者: Rob Carroll | リンク |
名前 | コメント | ソース/データを取得する方法 |
---|---|---|
awesome-football by Football.db (ジェラルド・バウアー) | 素晴らしいサッカー (代表チーム、クラブ、試合スケジュール、選手、スタジアムなど) データセットのコレクション | GitHub リポジトリ |
データハブ サッカーデータ | リンク | |
ヨーロッパサッカーデータベース | 欧州プロサッカーの 25,000 以上の試合、選手、チームの属性 | リンク |
FIFA 15-22 の選手評価データ | ステファノ・レオーネによる SoFIFA からの抜粋 | リンク |
FIFA 18 選手の評価 | 17,000 人以上のプレイヤー、FIFA 18 から抽出された 70 個以上の属性、sofifa によって提供 | リンク |
FootballData | 「JSON と CSV のサッカー データの寄せ集め」 | GitHub |
footballcsv | CSV 形式の過去のサッカー結果 | リンク |
フットボール.db | あらゆる (プログラミング) 言語で使用できる、無料でオープンなパブリック ドメインのサッカー データベースとスキーマ (プレーン データセットを使用するなど) | リンク |
フットボール xG | リンク | |
Joe Kampschmid によるフットボール/サッカー データと API のガイド | リンク | |
私のサッカーに関する事実 | リンク | |
理学室 | リンク | |
プラスマイナスデータ | espn.com からのプレイごとのデータ | リンク |
Rec.Sport.Soccer Statistics Foundation | 過去のリーグ表とサッカーの結果 | リンク |
ロボカップサッカーシミュレーター | ロボカップサッカーシミュレータデータ | リンク |
スコーカ | リンク | |
スタットバンカー | リンク | |
Tableau データ リソース | スポーツデータも含めて | リンク |
移籍リーグ | リンク | |
トゥエルブ・フットボール | リンク | |
ウォソスタット | 世界の女子サッカーデータ | リンク |
以下を含むすべてのドキュメントはローカルのドキュメント サブフォルダーに保存されます。
?戻る
soccer_analytics
by Kraus Clemens - 分析の開始点を容易にする Python プロジェクトFootball-Analytics-With-Python
Ninad Barbadikarが編成したSports Discord ServerのTableauをチェックして、Tableau開発者のコミュニティと対話する
Tableauフットボールユーザーグループ、ロブキャロル、トムグドール、ニナドバルバディカルなど、さまざまなソースから照合したTableau-FootballビデオとチュートリアルのYouTubeプレイリストについては、次の[リンク]を参照してください。