競馬

ベイズ統計モデリングによる種牡馬ランキング

はじめに  
競走馬の能力には血統が重要です。しかし、遺伝は確率的です。血統が良く高価な馬が、必ずしもレースで好成績を上げるとは限りません。生産者の方は種牡馬のこれまでのデータと種付料[1][2]を見ながら、各年の種牡馬を選択します。特に若い種牡馬は能力が不透明で、現役時の成績が種付料に反映されがちです。実績データが少ない場合、勘に頼るところもありそうです。このような場合、ベイズ統計が向いています。今回は最も簡単なモデルとして、競走馬の生涯獲得賞金額のみから、歴代種牡馬ランキングと現役種牡馬の費用対効果を調べてみます。

データ
1990年から2020年6月までのレース結果から、全競走馬の獲得賞金額と父馬名を抽出します。JRAの毎年のトータル賞金額は年々微増加しているため、年間の総賞金額が同一になるように補正します。また、このデータ中には英語表記の父馬名があります。外国馬でしょうか?マル外と呼ばれるものでしょうか?産駒のサンプルが少ないので、英語表記の種牡馬は省くことにします。そうすると、全部で1752頭の種牡馬になりました。

これらは、クロフネとサンデーサイレンス産駒の生涯獲得賞金額の分布(ヒストグラム)です。青は全競走馬の平均です。実線はガンマ分布でのフッティングです。良く合ってますね。ガンマ分布のパラメータを推定して、種牡馬の能力を評価できそうです。クロフネは歴代2位の1393頭の産駒がデビューしていますが、産駒の獲得賞金額はあまり良くなく、ほぼ平均的です。サンデーサイレンスは流石です。後の推定されるように、サンデーサイレンス産駒の生涯獲得賞金額の期待値は3166万円で、ぶっちぎりの1位です。

モデル  
競走馬nの生涯獲得賞金額M_nは、その父馬f(n)のみに依存するガンマ分布からサンプリングされるとします。ガンマ分布のパラメータには0<\alpha_f<1,\beta_f>0の制約があります。このため、\alpha_f,\beta_fはそれぞれ、ベータ分布とガンマ分布に従うとします。これらのモデルを数式で表して、次のようになります。

    \begin{gather*}  M_n \sim Gamma(\alpha_{f(n)},\beta_{f(n)}) \\  \alpha_f \sim Beta(\alpha_1,\beta_1) \\  \beta_f \sim Gamma(\alpha_2,\beta_2)\end{gather*}

このモデルに、全競走馬N頭のの涯獲得賞金額M_n(n=1,2,...,N)を与えることで、種牡馬(全N_f頭)の\alpha_f,\beta_f(f=1,2,...,N_f)を推定します。これらの推定にはStan[3]を使います。十分な反復数を使って、1日ぐらいの計算時間になりました。

歴代種牡馬ランキング
ガンマ分布の平均値\mu_f=\frac{\alpha_f}{\beta_f}を使って種牡馬の評価を行います。\mu_f大きい順に20位まで種牡馬を以下の図に示します。

青は\mu_fのサンプルのヒストグラムで、オレンジの実線はそのフィッティングです。緑線は全競走馬の平均賞金総額です。流石に歴代の上位20頭ではこの平均値よりも大きい値に分布しています。産駒数が多い場合は分布はシャープになる傾向があり、少ない場合はなだらかな分布になります。例えば、1位のサンデーサイレンス産駒は1331頭がデビューし、4位のエンドスウィープは153頭です。産駒数が少ない場合、証拠が少なく予測区間が広くなる傾向になります。証拠が少なくとも、ベイズ統計では予測区間を求めることができるため、種牡馬を選ぶときに理論的な決定をすることが可能です。

現役種牡馬ランキング
現在は種牡馬の実力はかなりの低迷期にありそうです。現役種牡馬の歴代20位には入っておらず、ハーツクライが歴代25位で、ダイワメジャーが30位です。突出した種牡馬が不在のため、種付料が低めの種牡馬にも活躍のチャンスが大きそうです。初産駒が2015年以前の現役種牡馬は118頭であり、そのランク付けをしてみましょう。ここでも、上位の20位までの\mu_fの分布を示します。

種牡馬名の右の括弧の数字が初産駒のデビュー年です。その右に2020年の種付料を表示しています。2020年の種牡馬は全体的に低レベルであり、平均ライン(緑)を超えているのはわずか6頭のみです。現役ではハーツクライとダイワメジャーが突出しています。続くネオユニヴァースとゼンノロブロイは種付料の割には実績が良いです。この2頭は年々評価を落としているようですが、現役種牡馬の中ではお買い得な気がします。5,6位のキンシャサノキセキとハービンジャーは種付料が高い若手です。しかし、かろじて平均値を上回る実力程度であり、費用対効果は小さいです。既に十分数の産駒が誕生しているので、今後は種付料も落ちていくものと予想できます。残りの種牡馬に関しても、産駒の賞金額の期待値が種付料と単調に関連するものではないことが分かります。

まとめと展望  
単純なベイズ統計モデルをを使って、競走馬の生涯獲得賞金額のみのデータから種牡馬のランク付けを行いました。獲得賞金額はガンマ分布に良く従うことから、ガンマ分布のパラメータを推定することで種牡馬の能力を評価しました。これにより、少ないデータ数で産駒の期待獲得賞金額を予測区間付きで理論的に求めることが可能になりました。種牡馬を選択するときは、この期待獲得賞金額と種付料を考慮して決定することで、費用対効果を高めることができそうです。

本モデルは妥当な結果を示しているものの、いくつかの重要な要素を無視しています。1つ目は、父馬と母馬の依存関係です。母馬は父馬の種牡馬としての実績や血統を考慮して選ばれるはずです。母親は父親よりも膨大な数であるため、この依存関係を取り入れた際には、ベイズ統計は更に威力を発揮するかもしれません。また、距離や芝・ダート特性等の個性も種牡馬選択の重要な要素です。様々な要素を取り入れ、モデルが複雑になるに従って、産駒の能力推定はデータ不足になりがちです。種牡馬の選択は、限られたデータから妥当な判断を行うという、ベイズ統計の良い応用問題であります。生産者は既にデータサイエンティストによる分析を判断材料にしているでしょうか。まだでしたら、ぜひお試しを。

引用先

[1] https://db.netkeiba.com/?pid=sire_leading  
[2] https://www.jbis.or.jp/topics/stallion/  
[3] https://mc-stan.org/

コメントを残す

メールアドレスが公開されることはありません。 * が付いている欄は必須項目です