本ブログにおいて分析を進める際には、バスケットボールのデータ分析に関する書籍” Paola Zuccolotto and Marica Manisera (2020), 『Basketball Data Science – with Applications in R』. Chapman and Hall/CRC. ISBN 9781138600799.”(以下、Paola and Marica (2020)と表記。)をベースに進めていく予定です。(※本書籍の紹介記事を書いていますので、よろしければご参考ください。)
Paola and Marica (2020)では、分析に用いる基本データファイルとしてTbox、Obox、Pbox、Tadd、PbP. BDBといった5つのデータファイルが紹介されています。
はじめに、この5つのデータファイルの概要を見ていきたいと思います。
※なお、Tbox、Obox、Pbox、Taddの4つについては、NBA公式ウェブサイトから各数値を収集の上、私自身で作成もしており、作成したデータファイルはこちらの記事に載せています。
分析の基本となる5つのデータファイルの概要
Tbox
分析対象となるチームのレギュラーシーズンのスタッツが集計されています。具体的には、GP (総試合数)、MIN(総試合時間)、PTS(総得点)などの量的データがまとめられています。
Obox
分析対象となるチームの対戦チーム視点のレギュラーシーズンのスタッツが集計されています。(分析対象チームの視点に立てば被総得点、被リバウンド数など。)上記Tboxと同じ量的データがまとめられています。
Pbox
分析対象となるプレイヤー個人のレギュラーシーズンのスタッツが集計されています。上記TboxおよびOboxとほぼ同じ量的データ(W:勝数、L:敗数は除かれています。)がまとめられています。
Tadd
分析対象となるチームの質的データが集計されています。具体的には、カンファレンス(Eastern or Western)、ディビジョン(Atlantic, Central, etc.)、レギュラーシーズンの順位、プレーオフ進出の有無といった情報となります。
PbP. BDB
分析対象となる試合の中で起こったイベント(シュート、リバウンド、ターンオーバー、ファウルなど)が試合の進行に沿って時系列的に集計されています。選手交代、シュートの成否、シュートを放ったコート上の位置などもまとめられています。(いわゆるPlay By Playデータです。)
NBA 2022–23シーズンの基本データファイルの作成方法
続いて、上記で述べた5つのデータファイルの作成についてです。
Paola and Marica (2020)では、主にNBA 2017–18シーズンのデータが使われています。
せっかくなので最新のデータを使いながら本書籍を読み進めていきたいと考え、2022–23シーズンのデータファイルをどのように準備すれば良いかと悩んでいたところ、Tbox、 Obox、Pbox、TaddについてはNBA公式ウェブサイトに公表されている情報をまとめれば同様の形式のものが作成出来そうでした。
そのため、Tbox、Obox、Pbox、Taddの4つについては、NBA公式ウェブサイトから各数値を収集した上で、自分で作成しています。なお、作成したデータファイルはこちらの記事に載せています。
一方、PbP. BDBに関しては必要となる情報量が多く、自分で作成するのは作業量的に現実的ではないためBigDataBallのウェブサイトからPlay By Playデータを購入しています。
各データファイルの集計および作成方法については、下記を参考ください。
Tbox<NBA公式ウェブサイトから数値を収集>
下記のNBA公式ウェブサイトから必要な各数値を収集しました。
表示のために項目は、Teams > General > Traditionalで設定しています。
ソートについては、下記の設定で表示させています。
- SEASON: 2022-23
- SEASON TYPE: Regular Season
- PER MODE: Totals
- SEASON SEGMENT: All Season Segments
Paola and Marica (2020)で使用されている形式と一致するように分析に必要な数値を算出の上、下記の通りまとめています。
なお、上記のTboxおよび後ほど紹介するObox、Pbox、Taddに記載されている各項目の内容は下記のとおりです。
Obox<NBA公式ウェブサイトから数値を収集>
下記のNBA公式ウェブサイトから必要な各数値を収集しました。
表示のために項目は、Teams > General > Opponentで設定しています。
ソートについては、下記の設定で表示させています。
- SEASON: 2022-23
- SEASON TYPE: Regular Season
- PER MODE: Totals
- SEASON SEGMENT: All Season Segments
こちらもPaola and Marica (2020)で使用されている形式と一致するように分析に必要な数値を算出の上、下記の通りまとめています。
Pbox<NBA公式ウェブサイトから数値を収集>
下記のNBA公式ウェブサイトから必要な各数値を収集しました。
表示のために項目は、Players > General > Traditionalで設定しています。
ソートについては、下記の設定で表示させています。
- SEASON: 2022-23
- SEASON TYPE: Regular Season
- PER MODE: Totals
- SEASON SEGMENT: All Season Segments
こちらもPaola and Marica (2020)で使用されている形式と一致するように分析に必要な数値を算出の上、下記の通りまとめています(一部分のみ表示)。
Tadd<NBA公式ウェブサイトから数値を収集>
下記のNBA公式ウェブサイトから必要な情報を収集しました。
ソートについては、下記の設定で表示させています。
- SEASON: 2022-23
- GROUP BY: Conference or Division
- SECTION: Overall
こちらもPaola and Marica (2020)で使用されている形式と一致するように必要な情報を下記の通りまとめています。
PbP. BDB<BigDataBallウェブサイトから購入>
下記のBigDataBallのウェブサイトより、元データとなる2022–23シーズンのPlay-by-Play Dataを購入しました。
このPlay-by-Play Data に関しては、Paola and Marica (2020)の中で紹介されている関数PbPmanipulationを用いて、分析用フォーマットであるPbP.BDBへの変換が別途必要になります。
今後の方針
以上、5つのデータファイルを使いPaola and Marica (2020)の内容に沿って、当面はNBA 2022–23シーズンのデータ分析を優先的に進めていきたいと思います。
なお、当方ブログ運営は初めてのため至らぬ点も多々あるかと思いますが、色々と参考にしながら運営を進めていくように努めたいと思いますので、どうぞよろしくお願いします。
【参考書籍】
Paola Zuccolotto and Marica Manisera (2020), Basketball Data Science – with Applications in R. Chapman and Hall/CRC. ISBN 9781138600799.
※本書籍の紹介記事を書いていますので、よろしければご参考ください。