Baseball Concrete Blog

主にプロ野球について、セイバーメトリクス的な考えを交えながら好きなことを書いています。

スポンサーサイト

上記の広告は1ヶ月以上更新のないブログに表示されています。
新しい記事を書く事で広告が消せます。

WARにおけるリリーフ評価の問題

せっかくなので、リリーフについてもう少し続けます。

『セイバーメトリクス・リポート2』に寄稿した記事「リリーフの本質・評価・最適配置」ではタイトル通りリリーフの本質と評価と最適配置について論じたわけですが、当該論文ではリリーフの問題を掘り下げるということが主眼だったので、現行の選手評価体系であるWARにおけるリリーフ投手の扱い、という観点は深堀できませんでした。

しかし「評価」を論じる中でWARについての疑問も出てきたため、ここでその点を掘り下げてみたいと思います。

この点について最も気になったのは、WARにおいて、リリーフだけが活躍の状況を評価に取り込んでしまっているということでした。個人的には、これを「リリーフの評価だけ三次元になっている」と整理していますが、いきなりそう言ってもわかりにくいので順を追って述べていきます。

WARは基本的に、選手個々人を独立して公平に評価するという思想の上に成り立っています。ある選手がヒットを打ったとき、たまたま塁上にランナーがいたから点になって評価が上がる、あるいは逆にランナーがいなかったら評価が下がる、というのは個人評価としては公平でないと考えます。打席に入る前にランナーが出るかどうかはその選手の働きではないからです。

この結果出てくるのが局面に見込まれる平均的な得点(得点期待値)を評価に使うという手法(LWTS)で、これはいわば選手のすべてのプレーを仮想的に「平均的な状況で発生した」ものとみなして評価を行うことに等しくなります。

ということは評価を考える上でプレーが実際にどの状況で発生したのかということは考慮しなくてよいことになります。結局、選手の評価は機会あたりのプレーの質と機会の多さの掛け算で決まります。機会あたりの質というのは打者であればwOBA、投手であればFIPであり、機会というのは打席や投球回ですね。すなわち、打者ならwOBAが高くて打席数が多ければたくさん貢献したと評価されるという単純な話です。

しかしリリーフ投手については、このような評価だけでは問題があるのではないかという考え方があり得ます。ひとつ前のブログ記事でも言及したように、リリーフ起用という方策はそもそも「できるだけいい投手をいっぱい投げさせよう」という単線的な発想から脱して、あえて登板機会を抑えてでも大事な局面に良い投手を投げさせようという発想のものですから、実際の局面を無視して平均化するというLWTSの評価方式はリリーフのそもそもの本質を描写するのに向いていないことになります。

そこで出てくるのが局面の重要度を客観的に測定したレバレッジ・インデックスという指標を救援投手の貢献値に掛け合わせるという手法で、こうすれば重要な局面で抑えるというリリーフの働きを計数的に描写できるよね、ということで現在これがWARにおいて採用されています(※FanGraphsやBaseball-Referenceでは採用されていますが、『セイバーメトリクス・リポート2』掲載のWARではレバレッジは使われていません)。

これでめでたしめでたしとなればいいのですが、こうしてざっとまとめてみるとすぐにわかるように、そもそも局面を考慮すると不公平になるから無視することにしたのに、リリーフの評価を考える中でまた局面の要素を取り込んでしまい不公平が復活したではないかという問題があります。

実際、同じように優秀なピッチングをするリリーフ投手が二人いたとして、片方はレバレッジ・インデックスが高い局面で、他方は低い局面で起用されれば、与えられた登板機会の中でベストを尽くすという仕事については同一でもWARの計算上は前者の方が評価は高くなります。

ここで冒頭に述べた「リリーフだけ三次元」の意味が明確になってくるかと思います。打者と先発投手は「質×量」なのに救援投手は「質×量×局面(レバレッジ)」になっているということです。レバレッジの高さが奪三振の多さのように選手の力量で決まるものならいいのですが、そうではなく恣意的に与えられるだけのものである点に問題があります。


war_evaluation


リリーフの本質を踏まえるとレバレッジを取り入れることは非常に大切なのですが、あくまでも公平な個人評価という観点で考えるならば、レバレッジを使った評価が妥当なのかには疑問が残ります。それ自体が良いとか悪いとかいうよりも、打者や先発投手の評価と比較したときにWAR内部のロジックとして整合性が取れていないのではないかと感じます。このあたり、アメリカのセイバーメトリシャンがどのように理論的な整理をつけているのかが私にはよくわかりません。広い枠組みで言えば「WARの評価体系において局面すなわちコンテクストをどのように扱うか」という問題です。

リリーフだけは例外だ、とか、打者や先発投手にもレバレッジに相当する局面の要素を掛けてもいいけど実際には平均化されてあまり影響がないから省略しているのだ、とか、考え方は色々あり得ると思うのですが、今のところその辺がよくわからないというのが議論として俎上に載せたい点です。

なお個人的な考えとしてもはっきりした答えは出せておらず「レバレッジ・インデックスを使ったやり方はうまいやり方だとは思うけれど、整合性が取れていないと言えばそうだし、WARの基礎をなしているLWTSの原理との食い合わせも良くはない」と感じるのが率直なところです。

ただ個人的な意見としてひとつあるのは、究極的には解決策になるわけではないものの、上記のような問題がある以上それがわかるようなWARの見せ方にしたほうがいいのではないかということです。

救援投手のWARが例えば1.6だといきなり言われても、それは投球が優れていたのか、そうではないけどレバレッジの高い局面で投げたのかがわかりません。仮にレバレッジを考慮しないで計算したWARが1.2で、レバレッジが1.33であるために1.6になっているなら、0.4は局面によるボーナスの要素があるため、それがわかるように分けて表示すべきではないかと。

この分離が明確だと、優秀な投手にレバレッジの高い局面を割り当てることに成功しているかどうかも一目瞭然となり、素のWARとレバレッジの相関度でベンチの投手起用の的確さを評価するという視点にもつながってくると思います。個人的にはFanGraphsが採用しているFIPとFDPの両建てよりも、ここを明確にするほうがリリーフについては重要なのではないかと感じます(Baseball Referenceでは分離した形で見れます)。もっとも、リリーフエースでもない限りレバレッジによってそこまで強烈に数値が左右されるものでもないとは思いますが。

あと、局面要素補正前のWARに掛け合わせるのが具体的な数値としてレバレッジ・インデックス(ポテンシャルとしての勝率の変動の大きさの指数であって一点の重さを直接に計測しているわけではない)でいいのかというのも自分の中ではまだ吟味できていないのですが、このあたりは向こうのセイバーメトリシャンにとっては自明なのでしょうかね。



スポンサーサイト

リリーフ関係の記事紹介

ご無沙汰しております。
なかなか時間が取れずちゃんとした更新のネタはないのですが、更新がないために出ている広告のおかげで過去記事を読むのすら読みにくいかなと思いますので、なんとか更新をしてみます。


今回は今年の春に出版された『セイバーメトリクス・リポート2』関係で。

私はこの中でリリーフに関する記事を書いたのですが、その準備段階で、アメリカのセイバーメトリクス系ウェブサイトで書かれているリリーフ関係の記事はかなり読み漁りました。

その中の一部は内容をメモしてあるので、これを公開することで、なんとなく面白い議論の雰囲気を知ってもらえるのではないかと考えました。自分のコメントとして書いてたり雑な訳をそのまま書いてたりごちゃごちゃなので申し訳ないのですが……。とりあえずそういうことで、5つほど「こんな記事がありますよ」ということで下にのっけておきます。


ごく簡単に文脈に触れておきますと、Dave StudemanのWPA絡みの記事が3つ出てきますが、リリーフの評価においては勝利確率という概念の導入がとても重要です。

普通の打者や先発投手の評価については、得点期待値の意味で「どれだけ総得点を増やしたか、総失点を減らしたか」で基本的には意味のある評価が構築できます。しかしリリーフに関しては、あえて多く登板する機会を犠牲にしてここぞという場面に備えているわけで、そのような役割について「どれだけ多く失点を防いだか」で評価をすること(RSAAのような指標を想定してください)は果たしてそもそも意味があるのかという疑問が生じます。

この点がとにかく本質的に重要なので、『セイバーメトリクス・リポート2』では「リリーフ登板の価値を失点数で計ることは、正しいか間違っているかという以前に本質を捉えていない」とあえてやや過激な表現でこの点について議論を行いました。

そこで役に立つのがWPAが用いる勝利確率というアイデアや、そこから派生するレバレッジという観点です。これらを道具にして考察を進めると、「セーブ」の規定に沿ったクローザーの起用ってどうなんだろうね、といった論点も出てきます。

これらは別に、そういう数理的なテクニックが使いたいとか小難しく議論をしたいということではありません。例えば最初に挙げているSteve Trederの記事なんかは、数学で武装して難しいことを言っているわけではなく物事の成り立ちから冷静に見てその意義を検討しています。数理的な指標は、「量」が問題になったときにその部分を明確にするための単なる道具です。
出発点はあくまでも、色んな角度から野球のことを考えてみようよという視点です。






Steve Treder, "The Closer and the Damage Done," The Hardball Times, 2004

 セーブについて歴史的な観点から意義を分析している記事。
 1950年代に救援投手の重要性が高まってきたとき、スポーツ記者のホルツマンがそれを評価する手段を考えようと、セーブを生み出した。はじめはちょっと面白いおもちゃ(an interesting toy)程度の扱いしかされておらず現実の野球に影響を与えるものではなかったが、徐々に浸透し、公式記録にまでなった。
 救援投手の酷使を防ぐために「セーブのつく場面でだけ使用」という方法をとるケースが登場。リリーフエースの新しい使い方の誕生。
 ビル・ジェイムズは1985年時点でリリーフの使われ方に疑問符。我々は均衡に到達したのか途上にあるのかについて、途上にあると考えている。
 多数のセーブを稼ぐ優秀なリリーバーが登場してみんながそれの真似をしだした。クローザーの誕生。
 クローザーという起用をするにはセットアッパーも必要。そのため多くの投手が必要。そのためチームはそれまでより多くの投手を必要とし、ピンチヒッターの代わりにブルペン投手をロースターに入れることになる。これは不利益なのでは…とジェイムズは指摘。
 では、そんなセーブにしたがった起用の利益な何かというと、登板過多による故障を防ぐことと効率的に重要な場面で起用する効果があるのかもしれないけど、セーブ限定の起用をされている近年のクローザーも故障しているし、セーブの場面での起用が効果的という根拠もなさそう。

 何故このようなクローザー・モデルが浸透しているかについては、ふたつの原因が考えられる。監督への影響と契約への影響。
 監督は、モデルが固まっていれば複雑な意思決定の過程を料理のレシピのように単純化できる。クローザー・セットアッパーなど役割を決めさえすれば、あとは定型に従って流していけばいい。また、一般的なセオリーにしたがっていれば、負けたときに記者に起用について追及されることから逃れられる(責任を逃れられる?)。監督も人間であり、解雇されたくない。
 もうひとつは経済的な私利私欲の問題で、セーブを稼げば年俸が稼げる。これは選手の欲も、たしかなセーブ・スターが欲しいという球団の需要も満たせる。そしてこれが一度はじまると、止まることなく継続していく。
 結論として、85年にジェイムズが言ったように、リリーフの起用については今はまだ途上。誰かが現在の起用パターンの問題点を明らかにし、成果をあげるだろうと考えられる。そして競争原理によって他者がそれを模倣する。そしてまたそのパターンの欠点が発見されて…ということが繰り返されていく。



Dave Studeman, “Closer,” The Hardball Times, 2005

 Dave Studemanによるクローザー分析記事。その時点の勝利確率とそこから点が生じずにイニングが終了した場合の勝利確率との差によって局面の重要性を測る指数「P」を導入(趣旨はTangotigerのLeverage Indexと同じ)し、現実のリリーフ起用を分析している。
 2002年から2004年のMLBについて登板時のPが高かった投手を見てみると、ホールドを稼いでいる投手が多い。一方でセーブを多く稼ぐいわゆるクローザーはPの値がそれほど高くなく、救援登板の平均に等しい選手すらいる。
 この要因は9回3点リードなど重要度の低い局面でクローザーが起用されていることで、9回で言うなら同点や1点リードの局面のほうが遥かに重要。局面の理論的な重要度に比して、クローザーをどうでもいい場面で起用しすぎている。
 Steve Trederの記事を引き合いに出し、マネージャーはチームの勝利を最大化するのではなくセーブ数を最大化するようにクローザーを使ってしまっていると指摘し。今日のリリーフ起用に疑問を呈している。



Dave Studeman, "Team Bullpens," The Hardball Times, 2005

 WPAによってチームのリリーフを評価している記事。局面の重要度を評価するから、WPAが有効な救援投手の評価方法だと言っている(この時点でWPAは新しいスタッツ)。
 ただし、WPAは本来的に真の能力を表すものではなく、予測のための指標でもないとして、最後にFIPも示している。


Dave Studeman, "Ranking the Relievers," The Hardball Times, 2005

 セーブの規定は、我々が救援投手について考える仕方に大きな影響を与えている。
 セーブは救援登板の重要性を評価しようとしている。接戦で抑えるのはそうでない場面で抑えるより仕事をしたというわけだ。ファンはこういった種類の情報をセーブに頼っている。
 しかしこれは問題だ。投手を評価する指標として、セーブはタロットカードよりは役に立つが、理想からは程遠い。96%勝てる3点リードにもセーブを与え、1点リードと同様に扱われる。チームが負けてしまえば、あるいはゲームセットまで投げなければ、どれだけ良い投球をしようがどれだけ重要なイニングであろうが、セーブは得られない。
 ホールドという指標もあるが、セーブとホールド両方に共通する問題は、同点の登板についてそれらの指標では評価されないことだ。同点の局面は「重要な局面」の典型なのに。WPAはこういった欠陥なく投手を評価することができる。
 我々が救援投手を評価する仕方を評価し直すときだ。



Dave Cameron, "WAR and Relievers," FanGraphs, 2010

 WARでは優れた救援投手の数値は年間で+2とか+2.5にしかならない。これは平均的な野手くらいで、リリーフはもっと価値があるという直感に合わないからWARは救援投手を適切に評価できないと言うひとがいる。しかしWARはちゃんと機能している。
 救援投手の仕事は、質は高い一方で、量が少ない。そのことが全体的な価値を制限してしまう。年間300打席も対戦せずに莫大なWARを記録することはそもそも無理なのだ。もちろん直面するひとつひとつの打席は通常より重要度が高いが、そのことはWARで考慮されている。
 クローザーの平均的なLIは1.8で、WARはその半分をクローザーにクレジットしている。これは連鎖の原理による。クローザーをリプレイスする場合、3Aの選手をいきなりクローザーにするのではなく、セットアップガイをクローザーにし、次に優れた投手をセットアップにし……3Aからの選手はモップアップになる。
 だからクローザーはLIの全てのクレジットを得るわけではない。これはWins Above Replacementであり、我々はその選手がいなかったとした場合と比較して得た限界的な勝利数を計測したいのである。
 MLBの球団が一流の救援投手を過大評価しているというのは、WARが機能していないことを示すのではなく、アービトラージ(裁定取引)の機会なのである。

 | HOME | 

プロフィール

管理者:クロスケ

野球全般好きで、プロ野球をよく見ますが特定の球団のファンではありません。
セイバーメトリクス(野球の統計的分析)の話題が多く、馴染みのない方にはわかりにくい内容があるかもしれませんがサイトに体系的にまとめています。

Baseball Concrete



RSSフィード

最近の記事

最近のコメント

カテゴリー

月別アーカイブ

上記広告は1ヶ月以上更新のないブログに表示されています。新しい記事を書くことで広告を消せます。