Baseball Concrete Blog

主にプロ野球について、セイバーメトリクス的な考えを交えながら好きなことを書いています。

スポンサーサイト

上記の広告は1ヶ月以上更新のないブログに表示されています。
新しい記事を書く事で広告が消せます。

Truth is not a popularity contest


DePodesta Monkey Trial (英語)

もう5年も前の記事になるのですが、何か熱いものを感じたというかいいなぁと思ったので紹介。
セイバーメトリクスの普及をめぐるお話で、マネー・ボール好きな人間ならちょっと引き込まれてしまうだろう内容です。
マネー・ボールの番外編っぽくもある。
普段「客観的な評価を云々」と書いておきながら本音として「客観的って言っても……ねぇ?」という逆の見方もあるわけですけど
こういう貫き通す部分もやっぱり大事かなと思わされる感じ。
最後のビル・ジェイムズの書きっぷりもいいw



ヘタクソですが一部だけまとめを。

  • 「マネー・ボール」以前は、人々はセイバーメトリクスを無視しており、野球は数字に表せないものだと統計を遠ざけていた。

  • しかし「マネー・ボール」が示したように現在統計の専門家は球団の内部におり、チーム運営の一部として重要度を増している。もはやセイバーメトリクスは野球の一部である。しかもセイバーメトリクスの普及は拡大傾向にある。

  • 一方で、いまだ多くの人は統計学的な野球の研究を認識しておらず、またメディアがセイバーメトリクスを不適切に取り上げている面がある。聴衆は一般的なメディアからセイバーメトリクスに関して否定的な見解を聞くことが多く、その反論は聞かないためにセイバーメトリクスを決定的に欠陥のある科学だと信じている。

  • あらゆる科学がそうであるように、確かに間違いはある。例えば統計解析家の間では「勝負強い打撃」は長い間幻想だと信じられていたが最近の研究では無視できない程度に存在するとされる。

  • しかし、では伝統主義者が正しかったかと言えばそういうわけでもない。伝統的な基準は勝負強い打者とそうでない打者を誤って判断してきたし、その影響は一般的に信じられているより遥かに小さい。

  • これらは根拠のある研究であり、独断や根拠のない主張ではない。

  • 研究によってそうではないと明確に示されているにも関わらず、生産的アウト(Productive Outs)が大切だと言う人が多く存在するが、多くの人が信じているからそうに違いないということはない。真実とは人気投票ではない。ガリレオは軟禁のうちに死んだが、それでも地球は動く。

スポンサーサイト

おそらく年内最後であろうサイト更新

得点を勝利に換算する

ピタゴラス勝率、RPWをキーワードに。
目新しいような話ではなくても一応まとめておくことは大切、というか、自分の中で納得しておくだけでなくて言葉にして説明しておかなければ外には通じないということを改めて意識したため。
しかし他の方も言及していたと思いますが誤差は大きいっちゃ大きいんですよねぇ。

Total WinとWin Share

前回のチーム別Total Winを出した記事で
「個人の利得をチーム別に合計することはチームとしての利得を出すこととは違う」ということを何気に言ったわけですが
これは総合評価で若干考え方が分かれる面白い部分なのでもう少し詳しく書いてみようかと。

まず前提知識として、総合評価メソッドとして有名なBill JamesのWin Shareは実際の勝利数を選手の成績に応じて分配する形式をとっています。従って、チームの勝利数とWin Share合計は必ず正確に一致します。80勝したチームなら貢献を集めれば80勝分になるだろうという考え方は、戦いの結果を重く見ておりわかりやすいものです。
それに対して私のTotal Winは全てのイベント(安打や奪三振などの働き)にリーグにおける平均的な価値を付与して、各選手を所属チームという文脈からは切り離して評価しています。それによりチームの合計Total Winと実際の勝利数は一致はしません。
何故この違いがあり、それが問題になるのでしょうか。


例えば。
シミュレータで、得点率4.00程度のチームの1番に出塁率99%の打者を置くと、チームの得点率は6.00ぐらいに跳ね上がります。
Batting Runs的に言えば、一試合あたり2点がその1番打者の出した利得なわけです。
では、その打者を9人集めて打線を組んだら 4+9*2 で得点率22になるでしょうか?
実際はそうではなく、2650点(!)くらいになります。
ほとんどアウトにならないやつが一人いても他の8人の出塁率は所詮.330程度なので得点率はそう伸びないけれども、全員がほぼアウトを与えない打者だと一向に攻撃が終わらず集中的に得点を上げることが可能になるわけです。
一種の「全体は部分の総和ではない」というやつですかね。

このときWin Share的な考えに沿って「チームとして2650点とったのは事実なのだから、9人で2650点分の貢献を分配すべきだ」とすると
一人あたり294点の得点創出になります。
しかし前述したように得点率4.00程度のごく標準的なチームに一人が加わっただけの場合、増える得点は2です。
平均的な4点の1/9の貢献を受け取るとしても全体で貢献は2.4点。
2.4点の場合と294点の場合と、出塁率99%の打者のやっていることは変わりません。仕事の内容は全く同じです。そして、2.4点と294点の差は「強打者と打線を組む」という選手間の関係において生じたものです。
その関係を生み出したことが誰の手柄かと言えば、編成の仕事なのか偶然なのかなんなのかは知りませんが選手個人のものではないだろうというのが私の考えです。
だから294点を打者に付与することはせず、特殊な状況は無視することにして全ての選手を仮定の上で「リーグの平均的な環境」において利得を算出しているわけです。

つまり、上記のモデルを例に考えた場合Win Share方式だと評価が他の打者に依存してしまう側面が生まれるわけです(それほど直接的に影響されるわけではありませんが)。
例を挙げて詳しく説明しようとすると思ったより冗長な文になってしまうということに気付いたので細かい話はこの辺にしますが
これは単に「全体は部分の総和ではな」くなるほんのひとつの例で、Total Winと実際の勝利数の乖離には他にも色々要因が考えられます。出塁率99%という極端な例を持ってきたのは、はっきり違う数字が出てくれたほうが説明するのにわかりやすいからというだけの話で、程度が変わっても話の中身が影響されることはありません。



これにWin Share的な立場から反論すると
選手の関係性の中で利得が生まれていくのも野球のひとつの重要な側面で、野球の勝利を研究しているくせに最終的には勝利数の結果を無視するのは勝利を追求した選手達への評価として貧相で無責任ではないかという言い方ができます。
指標で75勝と出たチームでも、結果として80勝していたらその5勝分無視していいのかよと。
このことは個人的には「宙に浮いた貢献問題」と呼んでいます(いや、こういうのを考えてた時期に年金関係でそういう言葉が盛んに言われてたから……)。
結果的な勝利を「答え」としてシェアするほうが、それが何かはわからなくとも野球の何か大切なものを漏らさず拾えるのではないかと。
それは見えない打線の繋がりだったりクラッチみたいなものだったりということが考えられます。

絶対的にどっちの考え方が正しいのかということは言うつもりありませんが
私としては前述のように見えないチーム力みたいなもの、選手の関係の中で生まれる利得はグラウンド上の特定の人間の手柄ではないから選手個人を評価する指標には含めないほうがいいという考えです。
それを踏まえた上で、別の視点としてWin Shareの考え方も魅力はあると思っています。
そういうことを見たいときにはそういうことを見られる指標を使えばよく、そういうことを見たくないときにはそういうことを見ない指標を使えばよく、要は単純な話、何を表したいかの違いということです。
どうも論点を整理して書けませんが「Total Win合計と実際の勝利数と多少違いが出るけどそれでいいんだ」ということの理由がなんとなくでも伝われば。


補足として、上記の内容は選手の評価がチームメイト等から受ける影響のある側面をカットするかどうかの話であって、Total Winの手法であればチームからの影響を完全に排除して選手個人を評価できるとか言いたいのではありません。
選手は常にチームの一員としてプレーしているわけですからTotal Win(や他の多くの指標)の素材となるあらゆる成績にはプレーする環境の影響が含まれていると考えるのが自然です。


球団別Total Win

先日発表したTotal Winという評価を球団別に合計していったらどうなるのかということについて。

TeamTotal WinPitching BattingFieldingPitching% Batting%Fielding%
巨人87.6 27.1 48.7 11.8 31% 56%13%
中日83.9 29.2 39.6 15.1 35%47% 18%
ヤクルト73.1 17.4 36.3 19.4 24%50% 27%
阪神71.4 27.5 34.5 9.4 39%48%13%
広島66.8 27.3 28.4 11.1 41%43%17%
横浜48.2 16.0 26.5 5.7 33%55%12%
TeamTotal WinPitching BattingFieldingPitching% Batting%Fielding%
日本ハム82.1 22.4 40.7 19.0 27%50% 23%
ソフトバンク74.4 27.8 34.3 12.2 37%46% 16%
西武70.4 21.3 37.2 11.9 30%53%17%
楽天69.3 23.9 33.9 11.5 34%49%17%
オリックス68.8 22.4 34.9 11.6 33%51%17%
ロッテ67.4 26.8 33.8 6.7 40%50%10%

これを見ると各球団が打撃・投球・守備どの要素で勝利を稼いでいるのかということがわかります。
ただしTotal Winは元々選手個人を環境から独立して評価するための指標なのでそのまま合計して「これがチームの数値です」と出すのは不適切なんですが。

にも関わらずなんでわざわざこの表を示すかというと、「チームのTotal Win合計は実際の勝利数とある程度一致するよ」というのを示すことで妥当性について最低限は担保しておく必要があるだろうと思ったからです。
チーム単位での一致を目指しているわけではなくともTotal Win合計と実際の勝利数があまりに乖離していると勝利への貢献度を評価する指標としての信頼性に問題が出ますから。

それで、Total Win合計を144で割った擬似勝率と実際の勝率との相関係数は.898。
現実に記録された得点と失点を利用したピタゴラス勝率による予測と実際の勝率の相関は.929ですから、実際の得失点記録を一切使用せず守りはDIPSや刺殺・補殺を基に利得を算出しているにしてはよくやっていると言えるんではないでしょうか。



2009年度総合評価

2009年度 Total Win

オリジナルの総合評価指標であるTotal Winによるランキング。投手、アベレージヒッター、パワーヒッター、守備で活躍する選手、特段秀でた能力がなくても地道に仕事をする選手……等が一挙に比較されるのが醍醐味となっています。個人的にはこだわりの指標で、シーズン中からこれのために色々な研究をしてきたりと労力も割いているわけです。

昨年に比べればだいぶマシになったと思っているものの、まだまだ疑問点や改善の余地がたくさんあるのは事実。なにより算出のまとめと説明の作業を一回の土日で片付けようと考えたのが間違いで、かといって作業を残すとまた週明けてから気になって日常に差し障るし、とりあえず説明のほうはやや投げやりのまま。
まぁ、少しずつ育てていくと考えることにしましょう。自分なりの「セイバーメトリクスの評価」を最終的には一本の論文にまとめるようなことができたら素敵だなと考えているのですが、現状ではいろんなことが中途半端。
MLBのほうの研究では細かい数字よりも「選手の価値ってなんなんだ?」というちょっと哲学的な部分が改めて掘り返されているような感もあり、その辺にも真似して多少ついていければと思ったのですが、いかに普段怠けているかということもよくわかったし。


1年

だから何ということは何もないわけですが
気付けば拙サイトBaseball Concreteが開設から1周年。
サイト名でぐぐっても未だ上位に出てこないような三流サイトであるものの、とりあえずやり始めて1年経てたってことで、これからというところでしょうか。
自分が前に出たい気持ちはないんですがセイバーメトリクスの紹介って目的があるので何かリンクや引用ができそうな機会があれば遠慮なくお願いします。その際はもちろん、歪んだ引用のされ方でなければ疑問でも反論でも全く構いませんので。


気をとりなおして

赤星の引退にめげていてもしょうがないので、週ベの総決算号で捕手の盗塁阻止スタッツが入手できたことを受け、サイトで今年度の捕手守備評価を算出。
評価法をマイナーチェンジしました。里崎と相川がそれぞれリーグトップ。細山田の数字が悪いのは、まぁまだ仕方がないところか。

赤星……


阪神の赤星が引退を表明 脊髄損傷で現役断念(デイリースポーツオンライン)


嘘だろ。ショック。無念。


サンプル数を増やして内野手の守備指標を見る

サイトのほうで直近5年分の内野手評価(独自指標)を算出したので
そこから5年分の守備指標をまとめると優れている内野手は誰か?ということを見てみました。
1年程度のデータでは明らかにサンプル数が足りないRRF系の守備指標ですが(まぁサンプル不足なのは打撃のスタッツでも投球のスタッツでも同じですが)このくらいイニング数を重ねた分を見るとそこそこ真の能力に迫っているのではないかと考えられます。

3000イニング以上を目安として、イニング数を1260で標準化した得点評価。
140試合を、平均的な守備者が守る場合に比べて防ぐ失点で表すことになります。
まずは一塁手。

選手イニング得点/140試合
福浦 和也4358 4
カブレラ4301 3
シーツ3103 1
栗原 健太5051 -9
ウッズ4308 -13

福浦が良いのはイメージ通り。前にこのブログの記事で取り上げたフェルナンデスは、1700イニングくらいで表には含まれていないものの23。
シーツがもっと良くてもいいような気もするものの、ウッズが大きく低いというのはやはりイメージと合致。
栗原はずっと悪かったのに2009年急に良化し、合わせるようにして東出のスコアが悪化。この辺の関係がちょっと気になるところです。単なる打球の偏りかもしれませんが。



二塁手。

選手イニング得点/140試合
東出 輝裕4406 13
本多 雄一3366 12
片岡 易之3870 10
田中 賢介4744 9
田中 浩康3827 7
荒木 雅博5569 1
仁志 敏久3606 -2
高須 洋介3773 -5

セイバーメトリクスでは常に「名手」評価の東出が1位。前述の通り今年急に悪かったのが若干気になるものの。
その他本多・片岡・両田中らのグループはこの指標的には大体「同じように守備が上手い」とみなしていいかと。
数字は得点の評価ですが、奪アウトの数に直しても違いは一桁程度。年間400以上の補殺をとるなかで十何試合にひとつ補殺が多いことなんて普通に見ていてまず気付かないと断言しておそらく差し障りは無いでしょう。
評判に反して荒木は平均的で、仁志・高須は若い選手の脚力には劣るという感じか。



三塁手。

選手イニング得点/140試合
中村 剛也3594 8
今江 敏晃4958 5
新井 貴浩4811 5
中村 紀洋3182 5
村田 修一5617 2
小笠原 道大3507 -3

あんまりしっくりこないけれどもおかわり君がトップ。
とはいえ全体的にレギュラー同士であまり差がない。今江・新井・中村紀あたりなんて数字に違いが見られないし。
イニング数不足組を一応見ると小谷野・森野が良く今岡がとても悪い。



遊撃手。

選手イニング得点/140試合
梵 英心3234 16
金子 誠4703 15
西岡 剛4411 9
井端 弘和6092 5
宮本 慎也3342 4
石井 琢朗4453 3
鳥谷 敬6440 2
川崎 宗則4932 2
二岡 智宏3478 -9
渡辺 直人3098 -11
中島 裕之5442 -15

梵がトップ。
セ・リーグは梵以外団子で、井端・宮本・石井・鳥谷はほとんど差なし。
あえて言えば井端は負傷の2008年を除けば少し抜ける。年齢を考えると鳥谷は宮本・石井の両ベテランを越えていたいところかもしれない。
パ。リーグでは金子誠が貫禄のトップ。「金子のトップと中島のワーストは明らかでその間に西岡・川崎・渡辺直が収まる形。中間3人の中では渡辺直が一段劣る」ぐらいの言い方にするとイメージに対してしっくりくるような気もする。
2000イニング以上を含めれば大引がトップだったりします。坂本は平均的。




楽しみにしていたものの

季刊BaseballTimesの2010年冬号、「全選手 公式戦個人成績」を掲載で今日発売とサイトでチェックしていたので本屋に行ってみましたが
パラパラ見た感じ、買おうと思わせてくれるだけのデータがないなぁと思ったのでパスしてしまいました。

公式記録から出せるRC27なんかはもちろんのこと、最近はヤホーとかの大手サイトで配信している選手データも細かいから打者のゴロ/フライ比とかわりと容易に出せちゃいますしねぇ。
私のような者からすると一にも二にも「生データくれ」としか言いようがないような感じ。

MLBじゃBaseball-Referenceのデータがフリーで見られるんだと思うと、なんかもう差がありすぎて呆然。
(そんな一足飛びに進んだって多分読み手がついてこないので、BTが悪いとかじゃないんですよもちろん)

 | HOME | 

プロフィール

管理者:クロスケ

野球全般好きで、プロ野球をよく見ますが特定の球団のファンではありません。
セイバーメトリクス(野球の統計的分析)の話題が多く、馴染みのない方にはわかりにくい内容があるかもしれませんがサイトに体系的にまとめています。

Baseball Concrete



RSSフィード

最近の記事

最近のコメント

カテゴリー

月別アーカイブ

上記広告は1ヶ月以上更新のないブログに表示されています。新しい記事を書くことで広告を消せます。