Baseball Concrete Blog

主にプロ野球について、セイバーメトリクス的な考えを交えながら好きなことを書いています。

スポンサーサイト

上記の広告は1ヶ月以上更新のないブログに表示されています。
新しい記事を書く事で広告が消せます。

wRAAのパークファクター補正

本当は「現在算出されている日本のWARをこう変えていこう」という議論をしたくてできていない中、今日はなんとかパークファクターについて考えてみようかと思います。

『セイバーメトリクス・リポート2』に掲載されたWARはパークファクターによる補正がなされていない値でした。しかし、球団によってそれぞれ本拠地球場があり球場の特性は様々であるため、本拠地によってWARの計算に含まれるような要素(要するに安打の多さなど)に有利不利が出ることは間違いありません。そこで、パークファクターという球場の特性を数値化した指標を用いて補正をすることがMLBの方では当然のように行われております。日本でもこれを適用したいところです。

そのパークファクター補正には色々なやり方が考えられるのですが、ここでは自分なりのロジックを考えてみます。打撃の評価であるwRAAの補正に関して、計算の手順を追う形で見ていきます。


(なお、パフォーマンスそのものの補正ではなくて得点への影響を補正すること、計算される補正値は選手の力によるのではなく機会に対する加算であること、という認識を前提としています。ちなみにレートスタッツ(例えばwOBA)の補正については「パークファクターの平方根でwOBAを割る」という古来から伝わる方法があるのですが論理的でない感じがするので置いておきます)



   (本拠地球場での試合あたり得点+失点)
PF=―――――――――――――――――――――
   (本拠地以外の球場での試合あたり得点+失点)


まずはパークファクターの定義。これは説明不要かと思います。
以下の目的では機会を「試合」ではなく「打席」にしたほうがよいかと思うのですが、大差はないのでとりあえずこれでいきます。
ちなみに結果的に生じた偏りを評価できればいいのではなくてできるだけ「真の値」を知りたいので、できる限り多くの年度をサンプルとして取り込みたいところです。ただし改修など条件が変わると過去のサンプルは意味がなくなる(大きな変化がないとしても意味が薄くなる)ので難しいところ。サンプルが少ないなら特にですが、regressionを適用することも考えられます。

補正係数=(本拠地試合/総試合)×PF+(1-本拠地試合/総試合)×(6-PF)/5

全ての試合を本拠地で行うわけではないので、本拠地で試合をした割合がどのくらいかを考慮して補正のための係数を計算します。本拠地で試合をした分には本拠地のPFが適用され、これが右辺の前半です。そしてPFは1が標準なのでリーグ全ての球団のPFを足し合わせると6で、ここから本拠地球場のPFを引いて5で割ることで「本拠地以外の試合の平均PF」が求められ、これを本拠地で試合をしない割合に乗じます。すなわち補正係数というのは、本拠地のPFと本拠地以外のPFを試合数に応じて加重平均したものです。
なお、一般的にシーズンを通じて出場する野手にはこれでよくても出場する球場が偏る可能性のある投手については個別の事情に応じた補正係数を出すのがベターであると思います。ただ、定量的には特に気にするレベルの問題ではないと考えられます。

補正値=(1-補正係数)×リーグの平均打席あたり得点×打席

補正係数を使ってどれだけ得点の意味で影響があったかを出します。PF(補正係数)が「得点の意味で平均に対して何倍」という形をしているのでこれをリーグの平均的な打席あたり得点数に乗じるとその条件で平均的な打者が打った場合にどれだけの得点が生まれるかが計算でき、対象とする打者の打席数の分それが積み重なります。平均的な球場で打つ場合との差が補正すべき値(その打者の貢献による価値でない部分)で、そのことをまとめたのが上の式です。

補正wRAA=wRAA+補正値

最後は足すだけ。

投手についても、打席をイニングに置き換えることでFIPを補正できるものと思います。ただ、FIPが分母をイニングにしているのは便宜的なもので私としては投手に与えられている機会も打席であると考えたいので、本来的にはWAR算出の過程で打席を機会として補正するのがいいような気がします。

以上が私が考える算出ロジックなのですが、Baseball-ReferenceのWAR算出説明ページを見ると「wRAA_pf = wRAA - (BPF/100 - 1) * PA * lgR/PA / (BPF/100)」という式が出ていて、最後の部分がこちらの案と違っていてちょっとよくわからないです。詳しい方に解説いただけたら物凄く幸いだなぁと思っている次第です。


--------------------

オマケで上記B-RのページのwRAA算出そのものについても考えてみたのですが(若干長くなる上に細かいところなので無視していただいても大丈夫です)、筋道を辿ってみるとちょっとしっくりこないという感想を持っています。B-Rの算出式によれば、wOBAを出すときの分母は「打数+四球-故意四球+死球+犠飛」です。これは問題ありません。

しかしwRAAにするときの掛け算では「打数+四球+死球+犠飛+犠打」ということで故意四球と犠打が機会に加わっており、たまたま巡り合った状況や恣意的な作戦が影響する性格が強い故意四球と犠打に関してはwOBAを出すときは無視するもののカウンティングスタッツであるwRAAを出すときには「もし打っていたら他の打席と同じようになっただろう」と想定するものとしているようです。

ちょっとこれらのスタッツの原型であるBatting Runsに戻ってみましょう。計算の仕組みを示すだけなので係数はなんでもいいですが例えば

Batting Runs=0.3×(四球+死球)+0.48×単打+0.78×二塁打+1.04×三塁打+1.40×本塁打-0.26×(打数-安打+犠飛)

だとします。この式の場合、犠打は自分が打って出る打席とは別に扱って、いわば無視しているわけです。BtRは一般的にこのような形で使われていますし、ヒッティングして生じた結果に評価として得点価値を掛けて合算するという考え方に何ら不自然な点はありません。

wOBAは、出塁率スケールに直す部分を飛ばして考えれば要するにBtRを打席で割ったものです。このとき、BtRで無視されている犠打の分を分母となる「打席」から除くのは自然なことです。

しかしwOBAからwRAAを出す段階で犠打を含めた打席を乗じてしまうと、(B-Rがそう想定すると明示的に述べているように)他の打席の仕事が犠打をした分の打席まで「引き伸ばされて」しまいます。本来のBtRからすると値が「打席/(打席-犠打)」倍されるイメージです。

これはそもそもBtRからすると不自然なのではないか?というのが私の考えで、wRAAを出すときに乗じるのはwOBAの分母と同じ項目にしたほうがいいのではないかと考えます(逆にB-R方式が正しいとする立場からすると、普通にBtRを出すとき最後に「犠打×(BtR/(打席-犠打))」の項目を加えないとならないのではないでしょうか)。

ただこれは必ずしもはっきり結論が出せるというものでもなく、次のような思考実験も考えられます。
能力の全く同じA打者とB打者がおりともにフルシーズン出場したとして、A打者は600打席でwOBA.350、wRAA +10。一方B打者は本当は600打席となるはずがそのうち50打席で犠打を命じられ、wOBAの分母が550となって、wRAAの計算に犠打を含めない場合wRAAが9.2となるようなケースです。この場合では、全く同じ能力の打者で出場量も同じなのにそのうちに(状況やベンチの志向という選手の責任でない要因により)犠打が含まれていたら評価が変わるのはおかしいのではないか、という主張も考えられます。このケースで両者を同じように評価したいと考えれば、B-R方式を支持することになるでしょう(もちろん他にもB-R方式が正しいとする見方は色々出せるかもしれません)。
ただ個人的にはどうも「起こっていないこと」に評価を与えている感じがするのです。従来のBtRを素直に出す考えからいけば、wOBAとwRAAで機会は揃えるのが自然ではないかと思います。



スポンサーサイト

さらにスタンダードwOBA

前回の記事に引き続き、スタンダードwOBAについて。実際の分析や指標の改善ではない話をあまりしても仕方はないのですが、自分がwOBAのベーシックバージョンを作るならどうするだろうか、ということを試しに考えてみました。

私なら以下のようにします。係数や項目をちょっと簡略化して一般的に使えるwOBA式。


wOBA=(0.7×(四球+死球)+0.9×単打+1.3×二塁打+1.6×三塁打+2.0×本塁打)/(打数+四球+死球+犠飛)
ちなみに wRAA=(wOBA-リーグ平均wOBA)/1.2×(打数+四球+死球+犠飛)


Tangotigerのバージョンと比較してのポイントは4つほど。

・失策出塁は入手できる場合のほうが稀なので原則除外の方向で。
・実際に起きたイベントの得点価値の観点からは二塁打と三塁打を区別しないことはナンセンスに思えるので区別する形に。
・故意四球は数字が区別されていない場合があったり分けると計算が煩雑になるのに加えて、故意四球の記録以外にも敬遠気味の四球もあるなど記録の区分が本質的に意味があるか微妙な部分もあるのでベーシックバージョンとしては区別しない形に。
・wOBAが出塁率の形式を踏まえていることを考えると分母が共通していることはわかりやすさなどの点で有用だと考えるため分母を普通の出塁率と共通に。


なお、wOBAscaleを1.2、アウトの得点価値を0.26としてwOBAの係数導出プロセスを逆に遡り普通のLWTSの数字を計算すると(1.2で割って0.26を引くだけ)四球から本塁打までの各数値は0.32・0.49・0.82・1.07・1.41と、一般的に使用されるLWTSの数字をよく近似できることがわかります。このくらいであればとりあえずwOBAといえばベーシックバージョンを使い、得点価値に精密にこだわりたい場合だけ調整した値を使えばいい、という考え方もできるかと。FIPなんかもその辺を割り切った上で13・3・-2の数字が広く使われているわけですし(当然FIPにおいても精度はさほど犠牲になっていません)。

年度ごとに細かく調整した係数を使って計算する場合に対しての誤差という意味ではほとんど気にするレベルではないのではないかと考えます。二塁打ばかりめちゃくちゃ打つなど偏りがある選手について通算レベルで見るなら問題もあるかもしれませんが、少なくともシーズンレベルでは得点や勝利数の単位での分析を害することはないかと。これくらいの係数の差で順位などが入れ替わるのであれば、元々評価において意味のある差はないということです。

例えばFanGraphsは一定のアルゴリズムに基づいて年度ごとに調整したwOBAの係数を算出していますが、これを見ると、年度ごとに係数が変わるといっても小数点以下第二位以降の微妙な変化であることがわかると思います。仮に(wOBAscaleで割り戻した)係数の差が0.01なら、当該イベントが100回発生してやっと得点の意味で1点の誤差となります。

以上wOBAとちょっと戯れてみました。別に「いい式を作ったからみんな使ってくれ」という意図の記事ではありません(そもそも、せっかくTangotigerが基準になる式を提示したのにその「ベーシック」をさらに乱立させてどうするのかという突っ込みも成り立つ感が…。冷静に見れば簡易版といっても「正規の」式と大して変わらないですし)。
せっかく有用な指標があるのにちょっとしたところで数字が合わせられないとか難しそうといった感じで敬遠されたりするのはもったいないという気持ちから、簡単な形にもできるしそれでも充分有用だよということを紹介してみました。


「スタンダード」wOBA

近年使用されることの多い打撃指標wOBAは、その係数の元となる得点期待値が不変のものではないことから本来的にはリーグ・年度によって係数が変わる性格であることはご存じの方も多いかと思います。

とはいえ、いちいち「今この分析に最適な係数はなんなんだ? どれを使えばいいんだ?」と悩むのも煩わしいもの。それに、実際上、ちょっとした係数の変化は分析結果にほとんど影響を及ぼさないものです。分析によって意味のある知見を得るという実利を重視するなら、あまり細かいことに拘って労力を割くのは得策とは言えない場合もあります。

そこで「細かくは色々変わるけど基本はこんな感じ」という基準となる式(係数)があれば便利です。以下のTangotigerのブログ記事では、そんなwOBAの「スタンダード」バージョンを定義しているので紹介します。

Standard wOBA (Tangotiger Blog)


バージョン1・ベーシック

分子:
 0.7:非故意四球+死球
 0.9:単打+失策出塁
 1.3:二塁打+三塁打
 2.0:本塁打
分母:打席-故意四球-犠打

バージョン2・スピード

分子:
 0.7:非故意四球+死球
 0.9:単打+失策出塁
 1.25:二塁打
 1.60:三塁打
 2.0:本塁打
 0.25:盗塁
 -0.5:盗塁刺
分母:打席-故意四球-犠打




失策出塁の記録が得られないとか、故意四球が区別されていないといった場合には単にそこを無視すればいい、と述べられています。「ベーシック」バージョンなら暗記するとしても出て来る数字は0.7・0.9・1.3・2.0の4つだけなのでwOBAを計算したらどうなるかのざっくりとしたチェックをするには便利ですね。

また、「ベーシック」バージョンは二塁打と三塁打の係数を区別しない点が特徴的でありブログのコメント欄ではその点に疑問を呈している読者もいますが、Tangotigerは走力・球場・外野手の要因によるからという独自の思想を持っているようです(ベーシックバージョンでは盗塁と同様に「走力」を切り離している?)。ただこの辺の部分も、指標を利用する分析者が分けたいと思うなら分ければいい話であると思います(実際、フォーマルなwOBAの式では普通に分かれているわけですから)。

最終的には、指標を使うにあたっては目的が重要です。目的をはっきりさせず色々な数字を出しても意味がありません。高い割合で安打を打っているかを知りたいのか、出塁している割合を知りたいのか、打席あたりにどれだけチームの得点を増やす働きをしているかを知りたいのか、盗塁も含めて攻撃力を見たいのか……。目的に対して適切な方式の指標を選べば、細かい係数や項目の有無はさほど問題ではないと思います。



余談1:ネット上で見ていると、日本では指標の計算において細かい部分がやたら気にされる印象があります。式の細かいバージョンの違いなど。その点MLBの方では分析上重要でない(結果がそれほど変わらない)ならあまり気にされず、状況に合わせて柔軟に使われる感があります。これが指標に対する慣れからくる差なのか、気質の違いなのかはわかりませんが。また、例えばRCAAのような数字を出す場合も日本では小数点以下第二位くらいまで掲載されることが多いようです。個人的には、そこまで細かい部分は評価の上で影響がないと思うのですが…(もっとも他の人が計算結果を照らし合わせたりするような場合には便利です)。

余談2:Wikipediaの当該項目にも引かれていますが、wOBAの説明において「現在最も信頼されている打撃指標」といった表現をわりとよく見かけます。突っ込むほどのことでもないのですが、これって何が発信源なのでしょうか。たしかに便利なのでMLB方面のコミュニティでは最近とてもよく使われますが、中身としては1985年時点では完成されていたLWTSであって、wOBAは評価法として別に新しいわけでもなければ、色々と提唱されている打撃の得点評価方法の中で特に精度が高いことが売り、というわけでもないです。ちなみにwOBAの式の中身については「打撃成績を得点換算で評価する」「打撃指標wOBA」あたりをご参照いただければ。

 | HOME | 

プロフィール

管理者:クロスケ

野球全般好きで、プロ野球をよく見ますが特定の球団のファンではありません。
セイバーメトリクス(野球の統計的分析)の話題が多く、馴染みのない方にはわかりにくい内容があるかもしれませんがサイトに体系的にまとめています。

Baseball Concrete



RSSフィード

最近の記事

最近のコメント

カテゴリー

月別アーカイブ

上記広告は1ヶ月以上更新のないブログに表示されています。新しい記事を書くことで広告を消せます。