Sports Analysisのブログ

サッカー、野球、アメフト、バスケットなどなどスポーツに関するデータを紹介!

【NPB】ジャイアンツの小林誠司の最終成績をデータから予測!好調はいつまで続く?

日本のプロ野球が開幕して約1ヶ月が経過した。

最も注目を集めているチームである西武によく言われている「打線は水物」説を前回の記事では検証した。

 

strange.hatenadiary.jp

 

今回は、チームではなく選手個人に焦点を当ててみる。

何人かの選手が開幕から好調を維持しているが、この記事では読売ジャイアンツ小林誠司選手に注目する。

一時期首位打者に立つなど打撃面で活躍しているが、気になるのはその好調がいつまで続くか

ここでは統計学と今までのデータを使って小林選手の最終成績を予測する。

 

予測に使う統計学の知識と考え方

今回の予測方法はセイバーメトリクスの考えを数学・統計的に記したメジャーリーグの数理科学」の考え方を基にしている。

 

メジャーリーグの数理科学〈上〉 (シュプリンガー数学リーディングス)

メジャーリーグの数理科学〈上〉 (シュプリンガー数学リーディングス)

 
メジャーリーグの数理科学〈下〉 (シュプリンガー数学リーディングス)

メジャーリーグの数理科学〈下〉 (シュプリンガー数学リーディングス)

 

 選手にはそれぞれ「真の実力」が存在し、運や相手の実力の影響で最終的な成績が変化すると考える。

つまり現状の成績から「真の実力」を推定することで今後の成績を予測することが出る。

95%の確率で「真の実力」を推定したい場合、以下の式を利用する。

{\displaystyle 誤差 = 1.96 \times \sqrt{\frac{推定値 \times (1 - 推定値)}{標本数}}}

{\displaystyle 真の実力 = 推定値 \pm 誤差}

ここで、推定値は現状の打率・出塁率長打率を使う。

また標本数は、推定値に使った値を算出する式の分母を使えばいい。

(打率・長打率の場合は打数、出塁率の場合は打席数)

 

この式で覚えておいて欲しいのは、標本数が増えれば誤差が小さくなるということ。

つまり、シーズンが進めば進むほど推定の精度は向上する。

 

小林選手の成績予測

ここから上述の計算式を使って、小林選手の最終成績を推測してみる。

5月4日の試合終了時点での小林選手の主な成績は以下の通りである。

  打席 打数 打率 出塁率 長打率
小林 94 79 0.329 0.413 0.418

これらのデータを使って「真の実力」を推測してみる。

  推定値 誤差 最小値 最大値
打率 0.329 0.104 0.225 0.433
出塁率 0.413 0.100 0.313 0.513
長打率 0.418 0.109 0.309 0.527

まだまだ打席数・打数共に少ないため、打率・出塁率長打率の全てで誤差が約0.1と大きく、打率だけを考えても「真の実力」は0.225~0.433と幅が広い。

 

そこで更に範囲を広げて2014年のデビューからの成績を合算して考えてみる。

  推定値 誤差 最小値 最大値
打率 0.222 0.024 0.198 0.246
出塁率 0.297 0.025 0.272 0.322
長打率 0.289 0.026 0.263 0.315

 デビューからの打席数が1320、打数が1142と標本数が多いため、誤差がかなり小さくなった

この結果から今シーズンの小林選手の成績はここから下降線を辿り、最終的には通算成績から算出した「真の実力」の最大値付近に落ち着くと考えられる。

 

まとめ

今回は統計学の知識を使って小林選手の最終成績を推測した。

結果的にはここから下降線を辿ると推測されたが、あくまでこれは推測値。

この結果を覆すような活躍をこれから出来るのか、注目したい。

 

おまけ:坂本勇人選手

小林選手とチームメイトで、5月4日終了時点で首位打者坂本勇人選手についても同様の予測を行ってみる。

まずは今シーズンの成績からの予測値。

  推定値 誤差 最小値 最大値
打率 0.379 0.088 0.291 0.467
出塁率 0.455 0.085 0.370 0.540
長打率 0.526 0.091 0.435 0.617

坂本選手の場合、過去3シーズンで小林選手の通算の打数・打席数を稼いでいるので、過去3シーズンの成績からの予測値を算出。

  推定値 誤差 最小値 最大値
打率 0.323 0.027 0.296 0.350
出塁率 0.406 0.026 0.380 0.433
長打率 0.493 0.029 0.464 0.522

小林選手と異なり、長期的な推測値と今シーズンの推測値に大きな違いがないことが分かる。

従って、ここから成績は下降線を辿るが、過去3シーズンの平均値かそれ以上の成績を残すと推測される。

 

 

統計学が最強の学問である

統計学が最強の学問である