Baseball Concrete Blog

主にプロ野球について、セイバーメトリクス的な考えを交えながら好きなことを書いています。

スポンサーサイト

上記の広告は1ヶ月以上更新のないブログに表示されています。
新しい記事を書く事で広告が消せます。

さらにスタンダードwOBA

前回の記事に引き続き、スタンダードwOBAについて。実際の分析や指標の改善ではない話をあまりしても仕方はないのですが、自分がwOBAのベーシックバージョンを作るならどうするだろうか、ということを試しに考えてみました。

私なら以下のようにします。係数や項目をちょっと簡略化して一般的に使えるwOBA式。


wOBA=(0.7×(四球+死球)+0.9×単打+1.3×二塁打+1.6×三塁打+2.0×本塁打)/(打数+四球+死球+犠飛)
ちなみに wRAA=(wOBA-リーグ平均wOBA)/1.2×(打数+四球+死球+犠飛)


Tangotigerのバージョンと比較してのポイントは4つほど。

・失策出塁は入手できる場合のほうが稀なので原則除外の方向で。
・実際に起きたイベントの得点価値の観点からは二塁打と三塁打を区別しないことはナンセンスに思えるので区別する形に。
・故意四球は数字が区別されていない場合があったり分けると計算が煩雑になるのに加えて、故意四球の記録以外にも敬遠気味の四球もあるなど記録の区分が本質的に意味があるか微妙な部分もあるのでベーシックバージョンとしては区別しない形に。
・wOBAが出塁率の形式を踏まえていることを考えると分母が共通していることはわかりやすさなどの点で有用だと考えるため分母を普通の出塁率と共通に。


なお、wOBAscaleを1.2、アウトの得点価値を0.26としてwOBAの係数導出プロセスを逆に遡り普通のLWTSの数字を計算すると(1.2で割って0.26を引くだけ)四球から本塁打までの各数値は0.32・0.49・0.82・1.07・1.41と、一般的に使用されるLWTSの数字をよく近似できることがわかります。このくらいであればとりあえずwOBAといえばベーシックバージョンを使い、得点価値に精密にこだわりたい場合だけ調整した値を使えばいい、という考え方もできるかと。FIPなんかもその辺を割り切った上で13・3・-2の数字が広く使われているわけですし(当然FIPにおいても精度はさほど犠牲になっていません)。

年度ごとに細かく調整した係数を使って計算する場合に対しての誤差という意味ではほとんど気にするレベルではないのではないかと考えます。二塁打ばかりめちゃくちゃ打つなど偏りがある選手について通算レベルで見るなら問題もあるかもしれませんが、少なくともシーズンレベルでは得点や勝利数の単位での分析を害することはないかと。これくらいの係数の差で順位などが入れ替わるのであれば、元々評価において意味のある差はないということです。

例えばFanGraphsは一定のアルゴリズムに基づいて年度ごとに調整したwOBAの係数を算出していますが、これを見ると、年度ごとに係数が変わるといっても小数点以下第二位以降の微妙な変化であることがわかると思います。仮に(wOBAscaleで割り戻した)係数の差が0.01なら、当該イベントが100回発生してやっと得点の意味で1点の誤差となります。

以上wOBAとちょっと戯れてみました。別に「いい式を作ったからみんな使ってくれ」という意図の記事ではありません(そもそも、せっかくTangotigerが基準になる式を提示したのにその「ベーシック」をさらに乱立させてどうするのかという突っ込みも成り立つ感が…。冷静に見れば簡易版といっても「正規の」式と大して変わらないですし)。
せっかく有用な指標があるのにちょっとしたところで数字が合わせられないとか難しそうといった感じで敬遠されたりするのはもったいないという気持ちから、簡単な形にもできるしそれでも充分有用だよということを紹介してみました。


スポンサーサイト

「スタンダード」wOBA

近年使用されることの多い打撃指標wOBAは、その係数の元となる得点期待値が不変のものではないことから本来的にはリーグ・年度によって係数が変わる性格であることはご存じの方も多いかと思います。

とはいえ、いちいち「今この分析に最適な係数はなんなんだ? どれを使えばいいんだ?」と悩むのも煩わしいもの。それに、実際上、ちょっとした係数の変化は分析結果にほとんど影響を及ぼさないものです。分析によって意味のある知見を得るという実利を重視するなら、あまり細かいことに拘って労力を割くのは得策とは言えない場合もあります。

そこで「細かくは色々変わるけど基本はこんな感じ」という基準となる式(係数)があれば便利です。以下のTangotigerのブログ記事では、そんなwOBAの「スタンダード」バージョンを定義しているので紹介します。

Standard wOBA (Tangotiger Blog)


バージョン1・ベーシック

分子:
 0.7:非故意四球+死球
 0.9:単打+失策出塁
 1.3:二塁打+三塁打
 2.0:本塁打
分母:打席-故意四球-犠打

バージョン2・スピード

分子:
 0.7:非故意四球+死球
 0.9:単打+失策出塁
 1.25:二塁打
 1.60:三塁打
 2.0:本塁打
 0.25:盗塁
 -0.5:盗塁刺
分母:打席-故意四球-犠打




失策出塁の記録が得られないとか、故意四球が区別されていないといった場合には単にそこを無視すればいい、と述べられています。「ベーシック」バージョンなら暗記するとしても出て来る数字は0.7・0.9・1.3・2.0の4つだけなのでwOBAを計算したらどうなるかのざっくりとしたチェックをするには便利ですね。

また、「ベーシック」バージョンは二塁打と三塁打の係数を区別しない点が特徴的でありブログのコメント欄ではその点に疑問を呈している読者もいますが、Tangotigerは走力・球場・外野手の要因によるからという独自の思想を持っているようです(ベーシックバージョンでは盗塁と同様に「走力」を切り離している?)。ただこの辺の部分も、指標を利用する分析者が分けたいと思うなら分ければいい話であると思います(実際、フォーマルなwOBAの式では普通に分かれているわけですから)。

最終的には、指標を使うにあたっては目的が重要です。目的をはっきりさせず色々な数字を出しても意味がありません。高い割合で安打を打っているかを知りたいのか、出塁している割合を知りたいのか、打席あたりにどれだけチームの得点を増やす働きをしているかを知りたいのか、盗塁も含めて攻撃力を見たいのか……。目的に対して適切な方式の指標を選べば、細かい係数や項目の有無はさほど問題ではないと思います。



余談1:ネット上で見ていると、日本では指標の計算において細かい部分がやたら気にされる印象があります。式の細かいバージョンの違いなど。その点MLBの方では分析上重要でない(結果がそれほど変わらない)ならあまり気にされず、状況に合わせて柔軟に使われる感があります。これが指標に対する慣れからくる差なのか、気質の違いなのかはわかりませんが。また、例えばRCAAのような数字を出す場合も日本では小数点以下第二位くらいまで掲載されることが多いようです。個人的には、そこまで細かい部分は評価の上で影響がないと思うのですが…(もっとも他の人が計算結果を照らし合わせたりするような場合には便利です)。

余談2:Wikipediaの当該項目にも引かれていますが、wOBAの説明において「現在最も信頼されている打撃指標」といった表現をわりとよく見かけます。突っ込むほどのことでもないのですが、これって何が発信源なのでしょうか。たしかに便利なのでMLB方面のコミュニティでは最近とてもよく使われますが、中身としては1985年時点では完成されていたLWTSであって、wOBAは評価法として別に新しいわけでもなければ、色々と提唱されている打撃の得点評価方法の中で特に精度が高いことが売り、というわけでもないです。ちなみにwOBAの式の中身については「打撃成績を得点換算で評価する」「打撃指標wOBA」あたりをご参照いただければ。

wOBAの高低に対応する利得

だからなんだ?と言われるとちょっと弱いのですが
wOBAが10ポイントアップするごとに600打席あたりのwRAAがどのくらい上昇するのかを見てみるとほとんど見事に5点ずつ上昇することに今更ながら気付きました。

wOBA  wRAA/600
.400  34
.390  29
.380  24
.370  19
.360  15
.350  10
.340  5
.330  0
.320  -5
.310  -10
.300  -15
.290  -19
.280  -24

※平均wOBAを.330、wOBAscale(wOBA←→LWTSの係数)を1.24として計算。

私はwOBAの計算においてスケールを出塁率に合わせることは計算上手間でもありLWTSの単位をわかりにくくする難点だと思っていたのですが
この法則は偶然であるにしろ5、10、15…というスケール感はなんとなく馴染みやすく美しいように思います(打席数を固定していてLWTSだから指標の傑出に比例して利得が増えるのは考えてみれば当たり前なんですが)。
なんとなく頭に入れておくと各選手のwOBAを見たときにその選手がどれだけチームの利得を与えるかに良い目安を与えるでしょう。
例えば.350の打者がフルシーズン出場すればwRAAはだいたい10、半分(300打席)ぐらい出場すれば5となるわけです。
ちなみにこれはMLB方式でwOBAscaleが1.15の場合としても大きな違いはありません。



打撃指標wOBAとは


打撃指標wOBA (Baseball Lab)

個人的に現代セイバーメトリクス三種の神器のひとつだと思っているwOBAの紹介を書きました。
三種の神器の残りふたつはFIPとUZRです。
本質的には、この3つさえあればWARが計算できます。
これらはTangotigerとMGLが開発したものですが、そのさらに元にはBill James(守備の加点評価ほか)、George Lindsey・Pete Palmer(LWTS)、Voros McCracken(DIPS)等の巨人がいるわけですね。


私がwOBAに対して持っている不満は、「wOBA」という字面は日本人にとってなんだかなぁ……というところです。
しかし

・「Weighted On Base Average」という言葉は指標の意味内容を適切に表している
・日本語の呼び方を考えるにしてもおそらく漢字で4文字とか5文字になりそれはそれで煩わしい
・開発者がつけた名前を勝手に変えるのは失礼

といったことを考えると、「こちらはこちらで呼び方考えましょう」というわけにもなかなかいかない。
とはいえ、なんだか、ねぇ。
ちなみに「wOBA」の発音はコレです(YouTubeリンク・音量注意)。


チームBABIP


阪神ダイナマイト打線、強運は今季限り!? BABIPで解析

道作さんの記事ですね。
BABIPを幸運として扱うことには実は色々な論点が絡んでいて納得することは結構難しいという側面もあろうかと思います。
とりあえず誰にでも確認可能な事実として言えてしまうのは、少なくとも過去においては継続される傾向が物凄く弱いということ。まずはそれを確認することからスタートするのがわかりやすいのかもしれません。

よくやるやり方として「ある年のチームBABIP」と「翌年のチームBABIP」について、楽天加入以後、2005年からのデータで見てみるとやはりほとんど相関はありません。高いBABIPを記録したチームは翌年も高いBABIPを記録するという傾向はこの期間に関して統計的にはないということです。

そもそも2010阪神の.330というのはどれくらい高い値なのか。
2005年~2010年のチームBABIPは正規分布的に分布しており、平均は.309(なお、犠打と犠飛は含めない式を使用しています)。
標準偏差は約.010で、72サンプルのうち51サンプル(71%)が.300~.320の間に入っています。
.330は平均から標準偏差ふたつ分も離れた値であり例外的に高いと言っていいでしょう。実際2005年以降では最も高い数値です。

ここまで見ただけでも、いかにも平均へ回帰しそうだなぁという感じですが、高いBABIPのチームがそう単純に平均に引き戻されるというのも不思議な感じもするので、過去に「高いBABIPを記録したチーム」がどうなったのか見てみます。
2009年までで、.320を超えるBABIPを記録したチームは5チームあり、それぞれのチームの翌年のBABIPがどうなったのかをまとめると、以下のようになります。

2009日本ハム .329 → .322
2005ヤクルト .324 → .305
2005阪 神  .324 → .315
2005ロッテ  .324 → .301
2008阪 神  .321 → .295

日本ハムなど継続して高い数値を残している例もあるにはありますが、「高かった年」の平均は.324であるのに対して「高かった年の翌年」の平均は.308となっており、グループとして高かった例を抜き出してみても結局翌年の期待値は全体の平均と変わらない、ということになりそうです。
ちなみに「低かった年」のグループを調べてみても同じように翌年は平均に近い数字を出しているので、なかなか面白いものです。

プレーにおける意味としてBABIPをどう捉えるかは別として、こういうふうに確認できることは確認しておくと不要な議論はわりと減らせるってところはあるんじゃないでしょうか。普遍的な傾向として考えるには、今回のデータではサンプルが少なすぎますけど。

 | HOME |  »

プロフィール

管理者:クロスケ

野球全般好きで、プロ野球をよく見ますが特定の球団のファンではありません。
セイバーメトリクス(野球の統計的分析)の話題が多く、馴染みのない方にはわかりにくい内容があるかもしれませんがサイトに体系的にまとめています。

Baseball Concrete



RSSフィード

最近の記事

最近のコメント

カテゴリー

月別アーカイブ

上記広告は1ヶ月以上更新のないブログに表示されています。新しい記事を書くことで広告を消せます。