Baseball Concrete Blog

主にプロ野球について、セイバーメトリクス的な考えを交えながら好きなことを書いています。

スポンサーサイト

上記の広告は1ヶ月以上更新のないブログに表示されています。
新しい記事を書く事で広告が消せます。

セイバーメトリクスに入門していくためのサイトまとめ(英語)

ボストン大学がセイバーメトリクスの講座をオンラインで無料で提供するということがちょっとした話題になっています。
それを見て、なるほど英語でもセイバーメトリクスに入門していくのに役立つような情報をまとめておくと意味があるかもしれない、と思いました。
そんなことで、私の狭い見聞の範囲ですがセイバーメトリクスを知るのに有益なサイト(フリー)を並べてみました。





まずはSABRに掲載されている「セイバーメトリクス研究のガイド」。
セイバーメトリクスとは何かから重要文献、研究の仕方、使えるウェブサイト、データの探し方、成果の発表場所などあらゆることをまとめてくれており、「こういう良まとめがあるから見てね」でこのブログ記事自体終わりでいいんじゃないかというレベルです。

A Guide to Sabermetric Research



『メジャーリーグの数理科学』でお馴染みの統計学者ジム・アルバートによるセイバーメトリクス入門。
最近書かれたものではないため現在から見るとやや古めかしく見える内容ではありますが、アカデミックな人物による記述ということでおさえておくのもいいかと思います。
理学系でガッツリいきたい方はGoogle ScholarでJim Albertと検索して論文を探してみるのも良いかもしれません。

An Introduction to Sabermetrics



セイバーメトリクス系シンクタンクのBaseball Prospectusによる入門系のコラムシリーズ。
具体的なデータも交えながら一般的なセイバーメトリクスの分析を見る上で重要な前提になるところを説明してくれています。

Baseball Prospectus Basics



同様にセイバーメトリクス系の情報を発信するFanGraphsのサイトの用語解説集。
指標だけでなく一般的な原理についても解説があり、簡潔でありながらポイントをおさえた説明がいいバランスでちょっと用語を参照するには最適ですしただ読んでいくだけでも勉強になります。

FanGraphs Library



こちらもセイバーメトリクス系のサイトとしてはお馴染みのThe Hardball Times。
以下にリンクしているのはリファレンス用の記事まとめで、過去THTに掲載された良質な分析記事がトピックごとにまとめられています。
これらは入門というより実践編の分析ですが、入門を踏まえて実際に分析したものに触れるにはいいまとめです。

The Hardball Times Reference



セイバーメトリシャンの大御所(?)Tangotigerのサイト。
まとめられている分析もさることながら、ブログが超重要。コメント欄には著名な分析家たちが集います。

Tango on Baseball



こちらもセイバーメトリシャン、Patriotのサイト。
評価基準やパークファクター、得点推定式など基礎的で重要な事柄がまとめられています。ブログの方の内容も濃いです。

Buckeyes and Sabermetrics

Walk Like a Sabermetrician



応用編かもしれませんが、セイバーの論文集"By the Numbers"がPDFで読めます。こちらに関しても分析家Phil Birnbaumのブログも絶品です。

philbirnbaum.com








とりあえずざっと思いつくところを並べましたが、また気が付いたら追記します。






余談になりますが、近年はデータ分析への注目の高まりもあり、いわゆる伝統的なセイバーメトリクスのような亜流のゴリゴリ計算とアカデミックでまともな(?)統計学・データサイエンスが出会ったり対立したりという場面があるようです。

アカデミックな世界にいる研究者はしばしばネットの世界で広まっている分析を無視しますし、「査読論文でもない強引な計算のものを分析とか言われてもね」というところもあるようです。
一方それに対してネットで激論を交わしながら分析を進めているセイバーメトリシャンたちからは「手法の厳密さや論文の体裁にばっかりこだわってダサイ分析してるやつが何言ってんだ? アカデミアの連中が重要で有効な知見を発見したことが一度でもあったか? むしろオンラインでは分析が数々の知性のある人間の『査読』に晒されているんだよ」みたいな意見があったり(もっともこれら主張は前にどっかで話題になっていたものを思い出しつつ大袈裟に書きだしてみたものなので冗談半分にお受け取り下さい……。ただ、憤っている「ストリート」のセイバーメトリシャンの側も博士号持ちだったり、ただお互いの事情を知らずに感情的にやりあっているわけではありません)。

上記で紹介したのはほとんど「ストリート」系の技法的には単純で実益重視の分析ですが、近年MLBでは得られるデータの種類も量も凄まじいものになっており、思いつきで数字と数字を割り算するような分析よりも「素材を活かした」まともなデータ分析が求められるというか、少し潮流は変わりつつあるように思います。冒頭のオンライン講義もセイバーメトリクスの紹介だけでなくコンピュータを使ったデータサイエンスの授業でもあるということで、そのあたりも注目度の高さに関係があるのかもしれません。


スポンサーサイト

守備陣と投手タイプの組み合わせ

素朴に気になったことについて軽く。

セイバーメトリクスの進展によって守備力が数値化されるようになり、他方で投手はBABIPの高低こそ支配できないものの打たせる打球がゴロかフライかの割合については投手ごとに傾向が出ることがわかってきました。

ここでアイデアとして、ふたつの知見を組み合わせる戦略が頭に浮かびます。すなわち、たとえば内野守備が優れていることが数値的にはっきりしている場合に、ゴロを多く打たせるタイプの投手を集めることで内野守備をさらに活かし利益を増やしくという方策です。

気になったのは、仮にそうした戦略をとった場合、具体的な数値としてどれくらいの利益が得られるのだろうか?ということです。

以下では全て仮定の数字で考えて、理論的にありそうな数字を試算してみます(多分、誰かすでにやっているのでしょうが)。
シナリオとしては「内野守備が良く外野守備が悪いチームが、他の内容は変わらないとしてゴロピッチャーを獲得するのとフライピッチャーを獲得するのとでどのくらい(期待の)失点が変わるか」というもので考えてみましょう。



守備陣のステータス
内野 UZR +20 / 2000GB ( +0.01runs/GB )
外野 UZR -20 / 2000FB ( -0.01runs/FB )

投手A(ゴロタイプ:GB%=60%)
135IP 450BIP 270GB 180FB
0.01 * 270 - 0.01 * 180 = 0.9

投手B(フライタイプ:GB%=40%)
135IP 450BIP 180GB 270FB
0.01 * 180 - 0.01 * 270 = -0.9

失点数差
0.9 - (-0.9) = 1.8


それほど極端な状況は仮定していませんが、上記の場合結果は2点程度となりました。
併殺を考慮すると、もう少し数値が上がるかもしれません。

いつもはあまり気にしないバントのこと

セイバーメトリクス好きはさぞかしバントが嫌いなんだろうと思われているのかどうかわかりませんが、自分は普段はバントにはあまり興味はありません。

統計データという名の過去の事実を普通に見て、普通に筋道を立てて考えれば、一般的には有効でない戦術なんだろうなとは思います。ただ、実際には打力の低い打者がバントをしたところで、仮に勝利確率が下がるとしても大したものではなくヒッティングの場合と顕著な差はないですから別に好きにすればいいんじゃないの、と。

しかし今回のWBCを見ていて、日本代表チームの病的なまでのバント多用は正直不快に感じてしまいました。

前提として、よほどの弱打者でない打者がバントをすれば基本的には勝利の見込みは下がります。単に大量点の見込みがなくなるということではなくて、1点だけを狙う場面でもバントは別に有効な戦術ではありません。今回の代表の試合では、相手の投手が良いと考えるにしても、日本でトップクラスの打力を持つ選手達が平気でバントをするので驚きました。

当然、選手は死に物狂いでやっているでしょうし、勝つか負けるかは彼らの名誉に関わる大きな問題です。采配は彼らを後押しこそすれ、足を引っ張るものであってはならないことは言うまでもないです。そこで勝利の見込みを下げるバントのサインを出しまくることについて「データとか調べてないからバントのほうが確実に点が取れるって勘違いしちゃってた、ゴメンネ」では済まされないかと。

選手に向かって「確実にホームランを打て」「絶対に完封しろ」というのは無理な注文ですが、ベンチがバントのサインを出さないというのは意思ひとつでできることです。気付けば直せる勘違いで日本代表チームを不利に追い込んでいるって、あまりにももったいないことではないかなぁと。

何も高度で特殊な数字を扱ってはじめてわかることというのではありません。過去の事実をごく単純に見れば、客観的な経験として、バントをする前の状況のほうが後の状況より点が入りやすいんだなとわかることです。

伝統的な戦術論を軽んじているわけでもありません。とはいえ、過去にバントが有効だと信じられていたとしても、それはそれとして、経験から学んで野球に対する理解を改善させていけばいいだけのことでしょう。そこに「新思考派」とかキャッチコピーをつけるほどのものですらないです。かつては「権藤権藤雨権藤」のような投手の酷使があったものが、さすがにそこまでやれば投手が潰れることがわかって、今ではそこまでの酷使は行われません。これも普通に経験から学んで意思決定を改善させた例で、バントについても同じように減らしていけばいいだけのことだと思うのですが。

とりあえず目先の進塁にとらわれすぎなように思います。「あと一本が出ない」って、その一本が出るための機会(アウト)を自ら捨てているわけなんで……。

注釈として、もちろんセイバーメトリクスは単純に平均的に見込まれる得点の多寡だけでバントの是非を議論しているわけではありませんし、バントがどんな場面でも100%ダメだと言っているわけではありません。技術的な部分についてはBaseball Prospectusが出版している『Baseball Between the Numbers』などがおすすめです。


短期決戦とスモール(ベース)ボール

初戦の勝利に安心しつつ、WBC開幕に寄せて、というわけではないですが……どうしても気になってしまったので(試合開始前に)殴り書きしたもの。ちょっと長いです。観戦が一息ついたときにどうぞ。




セイバーメトリクスと短期決戦の関係についてはわけのわからない誤解が多いと感じます。何故かよく聞くものに、セイバーメトリクス的なチーム作りはポストシーズン(短期決戦)に弱いという説があります。

これ自体は『マネー・ボール』本編でも触れられていて、別にそういうわけじゃない(少なくとも積極的な根拠はない)というのは普通に読めばわかると思うのですが、何故かそう素直に理解されていません。ビリー・ビーン自身の「短期決戦の結果は知ったこっちゃない」的な発言が「セイバーメトリクスは短期決戦には通用しない。そしてそのことは利用者自身認めている」と妙に拡大解釈されている感があります。もちろんビリー・ビーンの発言は、短期決戦ではセイバーメトリクスの影響が変わるということではなく、試合数が少なすぎて実力が反映されないから結果はほとんどランダムであり負けても仕方がないというごく単純な意味でしょう。

出塁率・長打率を重視するセイバーメトリクス的な戦略に対して、何故か短期決戦は積極的に犠打や盗塁をして「確実に」点を取るべきだという、いわゆるスモール(ベース)ボール的な戦術が強く主張されます(あえてスモールボールの定義は置いておきます)。今回のWBCにあたっても、そういう種類の主張を実際に耳にしました。しかし統計的には盗塁や犠打は特に確実な戦術というわけではありません。

普通に考えれば、一試合において勝率の期待値を高めることができる方策があるならそれを繰り返せばレギュラーシーズンでも有効ですし、レギュラーシーズンを通して勝率の期待値を高める方策が一試合単位で見たら逆に期待値を下げる、などということはおかしな話です。短期と長期で有効か無効かが変わると考えるにはかなり特殊な理屈が必要でしょう。自然に考えられるのは、戦略/戦術と言えるかは微妙としても「優秀な投手の集中的な起用」くらいでしょうか。

また、有名な研究のひとつにポストシーズンの「シークレット・ソース」というものがあります。これは米国のセイバーメトリクス系シンクタンクBaseball Prospectusが出版した『Baseball Between the Numbers』に収録されている論文に書かれているのですが、ポストシーズンでは以下の3つの要素が重要だとする説です。

・クローザーの貢献度
・投手の奪三振率
・守備力

なんとなくポストシーズンは特殊であることを示しているようで面白かったり、打撃ではなく守りを重視していることからスモールボールっぽく見えて日本人に馴染みがいいのかセイバーメトリクスのコンセプトの中では認知度の高いのシークレット・ソースですが、取り扱いにはかなり注意が必要です。

まず前提として、分析者はポストシーズンの成功とレギュラーシーズンの各種指標との相関性を分析したわけですが、示されている3つの要素とポストシーズンの成功との関連性というのは定量的には決して強くはありません。過去のデータを網羅的に調べてみたら一部の項目に多少の相関が見られた、という種類のリサーチです(分析者の発言によって真理が左右されるわけではありませんが、当該リサーチを行ったネイト・シルバーも後日の談話であれは構造的に意味のあるものではなく過去のデータにたまたま見られた傾向かもしれない、ということを言っています)

あくまでも得点が多く取れて失点が少ないほうが良いというレギュラーシーズンもポストシーズンも関係ない一般的な大原則が前提にあって、さらに顕微鏡を通して細かく見てみたらシークレット・ソースの3つの要素がちょっとだけ重要かも、ということです。まずは常識的な大原則があるということを忘れるわけにはいきません。例えばシークレット・ソースの要素に優れている得点率4.5・失点率3.5のチームとそうでない得点率5.5・失点率4.0のチームであれば、普通に後者の方が(得失点差が大きい分)ポストシーズンにおける勝利の見込みが高いということはあり得ます。仮にポストシーズンを見据えてシークレット・ソースを重視したチームを編成してもトータルの得点・失点が悪ければ本末転倒になりかねません。

そしてまた重要なことに、シークレット・ソースは攻撃における戦術(?)のスモールボールとは関係がありません。『Baseball Between the Numbers』の論文にも、スモールボールがビッグボールに比べてポストシーズンに有効であることの有意な統計的根拠はないとはっきり書かれています。

チーム編成として失点の少なさを重視するスタイルを含めてスモールボールと呼ぶなら、俊足・小型の野手が多くなりそれに伴って攻撃面で犠打や盗塁が増えるということであれば結果的な関連性はあるかもしれません。しかし攻撃面だけを切り取って見てみると、盗塁や犠打で得点を「作り出そうとする」スタイルも、四球や本塁打で「点が生まれるのを待つ」スタイルも、どちらがポストシーズンで有効ということはなかったのです。

シークレット・ソースの論文ではポストシーズンでは(レギュラーシーズン)の得点が多いことよりも失点が少ないことのほうが重要だという解析結果が示されているわけですが、そうなる理由についてはレギュラーシーズンに対するポストシーズンは相手に「弱いチーム」が存在しないこと、打撃力に対して得点力が非線形の関係を持っていることが関係しているのではと推測されており、これは長期か短期かとは別問題です。「短期決戦」だと特別に守り抜く野球が重要になるといった要素があるとわかったわけではありません。正確かはわかりませんが、守りの重要性が上がるというより得点力はレギュラーシーズンの得点数で評価するとポストシーズンの条件に当てはめるには過大評価になる、というイメージでしょうか。

そもそもポストシーズンに限らず失点が少ないほうがいいのは当たり前で、それに関してはリソースの分配に気を配る必要のない国際大会では攻撃と関係させて考える意味はないでしょう。

「日本は長打力では他の国にかなわないから犠打と盗塁でつないで点を取る日本らしい野球で攻めるべき」という主張を未だに本当に聞きますが、この主張が思い込みや詭弁という以前に意味不明ということは説明不要だと思いたいです。日本の打線が犠打や盗塁を重視するかは、そうする場合とそうしない場合とでどちらが日本打線の得点の期待値が高まるかによって判断されるべきであって、他国の打線の長打力は関係ありません。




短期決戦は試合数が少なくて結果がランダムに大きくゆだねられることは、セイバーメトリクスの有効性でなくなることを意味しません。
スモールボールを失点の少なさを重視する戦略だとしても失点は少ないほうがいいのは当たり前で、攻撃における戦術の選択の議論とは原則的に関係ありません。
短期決戦で犠打・盗塁を積極活用するチームが強いという統計的に有意な傾向はありません。
シークレット・ソースもスモールボールとは直接関係ありません。



ちょっとセイバーメトリクスと短期決戦の関係が変に捉えられすぎている、シークレット・ソースに関しては誤解されているか影響力が過大評価されていると感じたので書いてみた記事でした。ちなみに、シークレット・ソースの研究を批判しているわけではないですよ。むしろ面白い研究だと私も思うのですが、話として面白いからこそ受け取る側は印象が大きくてその定量的な影響を過大評価しがちで注意が必要だと思います。

また、価値観として犠打や盗塁が嫌いなわけでもなんでもありません。プレーとしては盗塁を見るのは特に好きですし。ただ事実が事実として普通に評価されないのはどうなのだろうと思います。


※最後に、もちろんこういう話は、詳細には、日本でいうスモール(ベース)ボールが明確に定義されないことには議論しようがないです。


WPAによるブルペン・マネジメント評価

Using WPA to grade bullpen management, part one

Using WPA to grade bullpen management, part two

Hardball Timesより、WPAをうまいこと応用して監督の投手起用のうまさを客観的に測定しよう、という試みです。

そのやり方で本当に監督のスキルを測れていると言えるのかとか、結果には運が大きく作用しているのではないかといった懸念はたしかに湧いてきます。

しかしそれを差し引いても発想が面白く、また主題をわかりやすく簡潔に(それでいて無味乾燥にはせず)伝える文章や、問題を無駄に複雑にしない数学的な操作の手際がいいです。セイバーメトリクス系統のエッセイとして学ばされます。

それにしても、こういう解析に触れると、WPA(勝利確率)という装置がこれほど高いポテンシャルを持つものかと驚きます。

というよりもむしろ、得点期待値やそれを近似したものとしてのOPSなどは全て、WPAの変数を削ぎ落とし単純化した応用例あるいは部分集合として理解すべきなのかもしれません。

WPAは非常に有効な形で野球というものを数量化(モデル化)しており、だからこそそこから自然な形で野球についての情報が自在に引き出せるのだろうと思います。

「勝負強さ」といった概念についても、それをどう数値化するかをゼロから考えればかなり錯綜するものと思われますが、FanGraphsで採用されているWPAを使った定義は非常にエレガントです。

日本でもWPAがブームになる時期がいつか来そうですね。

 | HOME |  »

プロフィール

管理者:クロスケ

野球全般好きで、プロ野球をよく見ますが特定の球団のファンではありません。
セイバーメトリクス(野球の統計的分析)の話題が多く、馴染みのない方にはわかりにくい内容があるかもしれませんがサイトに体系的にまとめています。

Baseball Concrete



RSSフィード

最近の記事

最近のコメント

カテゴリー

月別アーカイブ

上記広告は1ヶ月以上更新のないブログに表示されています。新しい記事を書くことで広告を消せます。