Baseball Concrete Blog

主にプロ野球について、セイバーメトリクス的な考えを交えながら好きなことを書いています。

スポンサーサイト

上記の広告は1ヶ月以上更新のないブログに表示されています。
新しい記事を書く事で広告が消せます。

K-BBの参考記事

『セイバーメトリクス・リポート3』(今年の4月発売)に寄稿した「投手の成績を予測する簡単な方法」という記事で、(K-BB)/PAという式で計算できる指標(K-BB)の有効性について書きました。

これに関してはアメリカで先行研究があります。なのですが、紙面の流れ上、直接関連する記事を一部引用した程度であとは「一連の研究があります」という程度の記述に留まり具体的な記事の名前(URL)を挙げられませんでした。
このためちょっとしたオマケというか補足の意味で、私が参照した一連の記事を載せておきたいと思います。



日付著者タイトル
2012/9/19Glenn DuPaulShould we be using ERA estimators during the season?
2012/9/19TangotigerForget all that other bullsh!t: just use K and BB to forecast rest-of-season ERA
2012/9/26Glenn DuPaulOccam’s Razor and pitching statistics
2012/9/26TangotigerOccam’s Razoring pitching stats
2012/10/3Glenn DuPaulPredictive FIP
2012/10/3TangotigerPredictive FIP
2012/10/10Glenn DuPaulDelving deeper into predictive FIP
2012/10/18Glenn DuPaulShould we even try to predict future runs allowed for relievers?
2012/10/24Glenn DuPaulShould we ever use a complex ERA estimator?
2012/11/2Glenn DuPaulShould we be trying to predict FIP instead of ERA?
2012/12/12Glenn DuPaulReinforcing the power of predictive FIP
2012/12/21Glenn DuPaulLeaders in kwERA
2012/12/21TangotigerkwERA
2012/12/24TangotigerkwERA Awareness
2013/2/6Glenn DuPaulStandard deviation and ERA estimators
2013/2/20Glenn DuPaulMore on standard deviation and ERA estimators
2013/2/20TangotigerShould we prefer a spread in forecasts?


流れとしてはGlenn DuPaulがK-BBの有用性に注目してさまざまな試みをし、これ自体は実は新しい発見ではないのだけれども、あまり系統的に整理されてはいなかったので車輪の再発明を避けるという意味でも有意義なまとめをしてくれてるよねという観点でTangotigerが逐一コメント(で、そのコメントに対してまたGlenn DuPaulが発展的な分析を提示)しているような形です。

私がリポート3で触れたよりも発展的な内容(例えば予測のためのFIPとして、K-BBに本塁打の要素を加えたらどうなるのか)にも触れられていたりするので、それほど複雑な話ではないですしひとつひとつの記事は重くないので読むと面白いと思います(最後のpFIPの式はなかなか美しい)。


スポンサーサイト

WARにおけるリリーフ評価の問題

せっかくなので、リリーフについてもう少し続けます。

『セイバーメトリクス・リポート2』に寄稿した記事「リリーフの本質・評価・最適配置」ではタイトル通りリリーフの本質と評価と最適配置について論じたわけですが、当該論文ではリリーフの問題を掘り下げるということが主眼だったので、現行の選手評価体系であるWARにおけるリリーフ投手の扱い、という観点は深堀できませんでした。

しかし「評価」を論じる中でWARについての疑問も出てきたため、ここでその点を掘り下げてみたいと思います。

この点について最も気になったのは、WARにおいて、リリーフだけが活躍の状況を評価に取り込んでしまっているということでした。個人的には、これを「リリーフの評価だけ三次元になっている」と整理していますが、いきなりそう言ってもわかりにくいので順を追って述べていきます。

WARは基本的に、選手個々人を独立して公平に評価するという思想の上に成り立っています。ある選手がヒットを打ったとき、たまたま塁上にランナーがいたから点になって評価が上がる、あるいは逆にランナーがいなかったら評価が下がる、というのは個人評価としては公平でないと考えます。打席に入る前にランナーが出るかどうかはその選手の働きではないからです。

この結果出てくるのが局面に見込まれる平均的な得点(得点期待値)を評価に使うという手法(LWTS)で、これはいわば選手のすべてのプレーを仮想的に「平均的な状況で発生した」ものとみなして評価を行うことに等しくなります。

ということは評価を考える上でプレーが実際にどの状況で発生したのかということは考慮しなくてよいことになります。結局、選手の評価は機会あたりのプレーの質と機会の多さの掛け算で決まります。機会あたりの質というのは打者であればwOBA、投手であればFIPであり、機会というのは打席や投球回ですね。すなわち、打者ならwOBAが高くて打席数が多ければたくさん貢献したと評価されるという単純な話です。

しかしリリーフ投手については、このような評価だけでは問題があるのではないかという考え方があり得ます。ひとつ前のブログ記事でも言及したように、リリーフ起用という方策はそもそも「できるだけいい投手をいっぱい投げさせよう」という単線的な発想から脱して、あえて登板機会を抑えてでも大事な局面に良い投手を投げさせようという発想のものですから、実際の局面を無視して平均化するというLWTSの評価方式はリリーフのそもそもの本質を描写するのに向いていないことになります。

そこで出てくるのが局面の重要度を客観的に測定したレバレッジ・インデックスという指標を救援投手の貢献値に掛け合わせるという手法で、こうすれば重要な局面で抑えるというリリーフの働きを計数的に描写できるよね、ということで現在これがWARにおいて採用されています(※FanGraphsやBaseball-Referenceでは採用されていますが、『セイバーメトリクス・リポート2』掲載のWARではレバレッジは使われていません)。

これでめでたしめでたしとなればいいのですが、こうしてざっとまとめてみるとすぐにわかるように、そもそも局面を考慮すると不公平になるから無視することにしたのに、リリーフの評価を考える中でまた局面の要素を取り込んでしまい不公平が復活したではないかという問題があります。

実際、同じように優秀なピッチングをするリリーフ投手が二人いたとして、片方はレバレッジ・インデックスが高い局面で、他方は低い局面で起用されれば、与えられた登板機会の中でベストを尽くすという仕事については同一でもWARの計算上は前者の方が評価は高くなります。

ここで冒頭に述べた「リリーフだけ三次元」の意味が明確になってくるかと思います。打者と先発投手は「質×量」なのに救援投手は「質×量×局面(レバレッジ)」になっているということです。レバレッジの高さが奪三振の多さのように選手の力量で決まるものならいいのですが、そうではなく恣意的に与えられるだけのものである点に問題があります。


war_evaluation


リリーフの本質を踏まえるとレバレッジを取り入れることは非常に大切なのですが、あくまでも公平な個人評価という観点で考えるならば、レバレッジを使った評価が妥当なのかには疑問が残ります。それ自体が良いとか悪いとかいうよりも、打者や先発投手の評価と比較したときにWAR内部のロジックとして整合性が取れていないのではないかと感じます。このあたり、アメリカのセイバーメトリシャンがどのように理論的な整理をつけているのかが私にはよくわかりません。広い枠組みで言えば「WARの評価体系において局面すなわちコンテクストをどのように扱うか」という問題です。

リリーフだけは例外だ、とか、打者や先発投手にもレバレッジに相当する局面の要素を掛けてもいいけど実際には平均化されてあまり影響がないから省略しているのだ、とか、考え方は色々あり得ると思うのですが、今のところその辺がよくわからないというのが議論として俎上に載せたい点です。

なお個人的な考えとしてもはっきりした答えは出せておらず「レバレッジ・インデックスを使ったやり方はうまいやり方だとは思うけれど、整合性が取れていないと言えばそうだし、WARの基礎をなしているLWTSの原理との食い合わせも良くはない」と感じるのが率直なところです。

ただ個人的な意見としてひとつあるのは、究極的には解決策になるわけではないものの、上記のような問題がある以上それがわかるようなWARの見せ方にしたほうがいいのではないかということです。

救援投手のWARが例えば1.6だといきなり言われても、それは投球が優れていたのか、そうではないけどレバレッジの高い局面で投げたのかがわかりません。仮にレバレッジを考慮しないで計算したWARが1.2で、レバレッジが1.33であるために1.6になっているなら、0.4は局面によるボーナスの要素があるため、それがわかるように分けて表示すべきではないかと。

この分離が明確だと、優秀な投手にレバレッジの高い局面を割り当てることに成功しているかどうかも一目瞭然となり、素のWARとレバレッジの相関度でベンチの投手起用の的確さを評価するという視点にもつながってくると思います。個人的にはFanGraphsが採用しているFIPとFDPの両建てよりも、ここを明確にするほうがリリーフについては重要なのではないかと感じます(Baseball Referenceでは分離した形で見れます)。もっとも、リリーフエースでもない限りレバレッジによってそこまで強烈に数値が左右されるものでもないとは思いますが。

あと、局面要素補正前のWARに掛け合わせるのが具体的な数値としてレバレッジ・インデックス(ポテンシャルとしての勝率の変動の大きさの指数であって一点の重さを直接に計測しているわけではない)でいいのかというのも自分の中ではまだ吟味できていないのですが、このあたりは向こうのセイバーメトリシャンにとっては自明なのでしょうかね。



リリーフ関係の記事紹介

ご無沙汰しております。
なかなか時間が取れずちゃんとした更新のネタはないのですが、更新がないために出ている広告のおかげで過去記事を読むのすら読みにくいかなと思いますので、なんとか更新をしてみます。


今回は今年の春に出版された『セイバーメトリクス・リポート2』関係で。

私はこの中でリリーフに関する記事を書いたのですが、その準備段階で、アメリカのセイバーメトリクス系ウェブサイトで書かれているリリーフ関係の記事はかなり読み漁りました。

その中の一部は内容をメモしてあるので、これを公開することで、なんとなく面白い議論の雰囲気を知ってもらえるのではないかと考えました。自分のコメントとして書いてたり雑な訳をそのまま書いてたりごちゃごちゃなので申し訳ないのですが……。とりあえずそういうことで、5つほど「こんな記事がありますよ」ということで下にのっけておきます。


ごく簡単に文脈に触れておきますと、Dave StudemanのWPA絡みの記事が3つ出てきますが、リリーフの評価においては勝利確率という概念の導入がとても重要です。

普通の打者や先発投手の評価については、得点期待値の意味で「どれだけ総得点を増やしたか、総失点を減らしたか」で基本的には意味のある評価が構築できます。しかしリリーフに関しては、あえて多く登板する機会を犠牲にしてここぞという場面に備えているわけで、そのような役割について「どれだけ多く失点を防いだか」で評価をすること(RSAAのような指標を想定してください)は果たしてそもそも意味があるのかという疑問が生じます。

この点がとにかく本質的に重要なので、『セイバーメトリクス・リポート2』では「リリーフ登板の価値を失点数で計ることは、正しいか間違っているかという以前に本質を捉えていない」とあえてやや過激な表現でこの点について議論を行いました。

そこで役に立つのがWPAが用いる勝利確率というアイデアや、そこから派生するレバレッジという観点です。これらを道具にして考察を進めると、「セーブ」の規定に沿ったクローザーの起用ってどうなんだろうね、といった論点も出てきます。

これらは別に、そういう数理的なテクニックが使いたいとか小難しく議論をしたいということではありません。例えば最初に挙げているSteve Trederの記事なんかは、数学で武装して難しいことを言っているわけではなく物事の成り立ちから冷静に見てその意義を検討しています。数理的な指標は、「量」が問題になったときにその部分を明確にするための単なる道具です。
出発点はあくまでも、色んな角度から野球のことを考えてみようよという視点です。






Steve Treder, "The Closer and the Damage Done," The Hardball Times, 2004

 セーブについて歴史的な観点から意義を分析している記事。
 1950年代に救援投手の重要性が高まってきたとき、スポーツ記者のホルツマンがそれを評価する手段を考えようと、セーブを生み出した。はじめはちょっと面白いおもちゃ(an interesting toy)程度の扱いしかされておらず現実の野球に影響を与えるものではなかったが、徐々に浸透し、公式記録にまでなった。
 救援投手の酷使を防ぐために「セーブのつく場面でだけ使用」という方法をとるケースが登場。リリーフエースの新しい使い方の誕生。
 ビル・ジェイムズは1985年時点でリリーフの使われ方に疑問符。我々は均衡に到達したのか途上にあるのかについて、途上にあると考えている。
 多数のセーブを稼ぐ優秀なリリーバーが登場してみんながそれの真似をしだした。クローザーの誕生。
 クローザーという起用をするにはセットアッパーも必要。そのため多くの投手が必要。そのためチームはそれまでより多くの投手を必要とし、ピンチヒッターの代わりにブルペン投手をロースターに入れることになる。これは不利益なのでは…とジェイムズは指摘。
 では、そんなセーブにしたがった起用の利益な何かというと、登板過多による故障を防ぐことと効率的に重要な場面で起用する効果があるのかもしれないけど、セーブ限定の起用をされている近年のクローザーも故障しているし、セーブの場面での起用が効果的という根拠もなさそう。

 何故このようなクローザー・モデルが浸透しているかについては、ふたつの原因が考えられる。監督への影響と契約への影響。
 監督は、モデルが固まっていれば複雑な意思決定の過程を料理のレシピのように単純化できる。クローザー・セットアッパーなど役割を決めさえすれば、あとは定型に従って流していけばいい。また、一般的なセオリーにしたがっていれば、負けたときに記者に起用について追及されることから逃れられる(責任を逃れられる?)。監督も人間であり、解雇されたくない。
 もうひとつは経済的な私利私欲の問題で、セーブを稼げば年俸が稼げる。これは選手の欲も、たしかなセーブ・スターが欲しいという球団の需要も満たせる。そしてこれが一度はじまると、止まることなく継続していく。
 結論として、85年にジェイムズが言ったように、リリーフの起用については今はまだ途上。誰かが現在の起用パターンの問題点を明らかにし、成果をあげるだろうと考えられる。そして競争原理によって他者がそれを模倣する。そしてまたそのパターンの欠点が発見されて…ということが繰り返されていく。



Dave Studeman, “Closer,” The Hardball Times, 2005

 Dave Studemanによるクローザー分析記事。その時点の勝利確率とそこから点が生じずにイニングが終了した場合の勝利確率との差によって局面の重要性を測る指数「P」を導入(趣旨はTangotigerのLeverage Indexと同じ)し、現実のリリーフ起用を分析している。
 2002年から2004年のMLBについて登板時のPが高かった投手を見てみると、ホールドを稼いでいる投手が多い。一方でセーブを多く稼ぐいわゆるクローザーはPの値がそれほど高くなく、救援登板の平均に等しい選手すらいる。
 この要因は9回3点リードなど重要度の低い局面でクローザーが起用されていることで、9回で言うなら同点や1点リードの局面のほうが遥かに重要。局面の理論的な重要度に比して、クローザーをどうでもいい場面で起用しすぎている。
 Steve Trederの記事を引き合いに出し、マネージャーはチームの勝利を最大化するのではなくセーブ数を最大化するようにクローザーを使ってしまっていると指摘し。今日のリリーフ起用に疑問を呈している。



Dave Studeman, "Team Bullpens," The Hardball Times, 2005

 WPAによってチームのリリーフを評価している記事。局面の重要度を評価するから、WPAが有効な救援投手の評価方法だと言っている(この時点でWPAは新しいスタッツ)。
 ただし、WPAは本来的に真の能力を表すものではなく、予測のための指標でもないとして、最後にFIPも示している。


Dave Studeman, "Ranking the Relievers," The Hardball Times, 2005

 セーブの規定は、我々が救援投手について考える仕方に大きな影響を与えている。
 セーブは救援登板の重要性を評価しようとしている。接戦で抑えるのはそうでない場面で抑えるより仕事をしたというわけだ。ファンはこういった種類の情報をセーブに頼っている。
 しかしこれは問題だ。投手を評価する指標として、セーブはタロットカードよりは役に立つが、理想からは程遠い。96%勝てる3点リードにもセーブを与え、1点リードと同様に扱われる。チームが負けてしまえば、あるいはゲームセットまで投げなければ、どれだけ良い投球をしようがどれだけ重要なイニングであろうが、セーブは得られない。
 ホールドという指標もあるが、セーブとホールド両方に共通する問題は、同点の登板についてそれらの指標では評価されないことだ。同点の局面は「重要な局面」の典型なのに。WPAはこういった欠陥なく投手を評価することができる。
 我々が救援投手を評価する仕方を評価し直すときだ。



Dave Cameron, "WAR and Relievers," FanGraphs, 2010

 WARでは優れた救援投手の数値は年間で+2とか+2.5にしかならない。これは平均的な野手くらいで、リリーフはもっと価値があるという直感に合わないからWARは救援投手を適切に評価できないと言うひとがいる。しかしWARはちゃんと機能している。
 救援投手の仕事は、質は高い一方で、量が少ない。そのことが全体的な価値を制限してしまう。年間300打席も対戦せずに莫大なWARを記録することはそもそも無理なのだ。もちろん直面するひとつひとつの打席は通常より重要度が高いが、そのことはWARで考慮されている。
 クローザーの平均的なLIは1.8で、WARはその半分をクローザーにクレジットしている。これは連鎖の原理による。クローザーをリプレイスする場合、3Aの選手をいきなりクローザーにするのではなく、セットアップガイをクローザーにし、次に優れた投手をセットアップにし……3Aからの選手はモップアップになる。
 だからクローザーはLIの全てのクレジットを得るわけではない。これはWins Above Replacementであり、我々はその選手がいなかったとした場合と比較して得た限界的な勝利数を計測したいのである。
 MLBの球団が一流の救援投手を過大評価しているというのは、WARが機能していないことを示すのではなく、アービトラージ(裁定取引)の機会なのである。

FIPの係数の意味とは


膨大なデータの海から、プロ野球の真実を探る。~セイバーメトリクス入門書への提言~


セイバーメトリクス・リポートを取り上げていただいております。
手厳しいご指摘というか提言もしていただいておりますが、ここではその点は有り難く受け取っておくということに留めまして(取り上げられるということ自体がとても有り難いことですね)、記事中に触れられているFIPにつきまして。

上記の記事を読んで「確かにFIPの係数ってなんなんだろう?」と気になった方もおられるかと思いますので、一応情報をアナウンスしておきます。

 (FIPの計算式)
 FIP=(13×被本塁打+3×(与四球+与死球-故意四球)-2×奪三振)/投球回+定数


まず、FIPは「守備の影響から独立した防御率」を計算する指標です。

通常の防御率は「自責点」によって計算されますが、これは失策の影響を除いてその投手が登板している間にチームが失った点数であり、守備の(失策に表れない)まずいプレーやまた逆にファインプレーなども要因として含んだ結果のものです。

FIPはそこから守備の影響を回避するため、野手の関与しない結果から防御率を計算しよう、という発想をとります。その野手の関与しない結果というのが被本塁打・与四球・奪三振です。

ただし単に各投手の被本塁打・与四球・奪三振の数を見ても、それが防御率としてどのくらいの評価に値するかはなかなかわかりませんし、したがって客観的に優劣の判断を下すこともできません。
そこで、被本塁打・与四球・奪三振の数に点数(野球における「得点(失点)」の単位)を加重して防御率に変換する過程が必要になります。

例えば被本塁打を一本打たれると平均的にどれだけ失点が増加するか(逆に言うと攻撃側の得点が増加するか)、といったことは統計的な分析によって算出することが可能です。具体的には平均的に見込まれる得点数に対する増減という形で算出され、被本塁打に大きな加重(13という係数)がかかっていたり、奪三振にマイナスの加重がかかっていたりするのはそのような得点数への影響を表しています。

つまり、FIPは投手を「野手の関与しない被本塁打・与四球・奪三振という結果だけから評価したい」という前提がまずあって、最終的に評価を防御率の形で表すために各項目に点数の意味での重みを与えているわけです。これがFIPの係数の意味です。

係数の大きさは単に失点に与える影響の大きさを統計的に測ったもので、「本塁打を打たれるというのはとても良くないことだから大きく罰する必要がある」とか「本塁打を防げないのは能力がない証拠」とかそういう価値判断とは関係がありません(結果としてそのような評価がなされるとしても)。

事象に得点の重みを与えるという考え方については拙サイトの「基本的な考え方」における「得点期待値」の項を、具体的なFIPの係数の導出過程については「DIPS再考」の中の「4.実用スタッツFIP」を見ていただけると筋道がわかるかと思います。
また、FIPはMLBを前提に開発された指標ですがそれがNPBに合うのかということも以前に簡単に検討しております(FIPの日本版係数)。

セイバーメトリクスの選手評価においては様々なプレーを客観的にひとつの単位(得点や勝利)に換算して統一的に評価しよう、という考え方が大きな基本としてあります。それについてはFIPだけでなくwOBAやUZRなども同じで、得点期待値という考え方がカギとして機能しています。「要するに個人の責任範囲のプレーを明確化したうえで、得点期待値の変化を使ってそのプレーを得点化してるんだ」と考えていただければ、現在主流で使われている多くの指標について統一的に理解ができるのではないかと思います。

ご参考までに。

Wow

本当ですよー。投手としての本当の実力はWHIPとDIPSで評価されるべきなんです。ただ金田さんや上原さんは言うまでもなく凄いです。RT @kurotti201: @faridyu 投手は勝ち星で評価されるべきではないと言ったのは本当ですか?(後略) @faridyu ダルビッシュ有(Yu Darvish)



「投手としての本当の実力はWHIPとDIPSで評価されるべきなんです」このセンテンスはだいぶはっきり言い切っていますね。
まぁ、私としてはWHIPに関しては「何のために見る指標なの?」と思ってしまう面は強いですが。

ちなみに個人的にはWHIPについてはココで、DIPSはココとかで書いております。


 | HOME |  »

プロフィール

管理者:クロスケ

野球全般好きで、プロ野球をよく見ますが特定の球団のファンではありません。
セイバーメトリクス(野球の統計的分析)の話題が多く、馴染みのない方にはわかりにくい内容があるかもしれませんがサイトに体系的にまとめています。

Baseball Concrete



RSSフィード

最近の記事

最近のコメント

カテゴリー

月別アーカイブ

上記広告は1ヶ月以上更新のないブログに表示されています。新しい記事を書くことで広告を消せます。