Baseball Concrete Blog

主にプロ野球について、セイバーメトリクス的な考えを交えながら好きなことを書いています。

スポンサーサイト

上記の広告は1ヶ月以上更新のないブログに表示されています。
新しい記事を書く事で広告が消せます。

チームBABIP


阪神ダイナマイト打線、強運は今季限り!? BABIPで解析

道作さんの記事ですね。
BABIPを幸運として扱うことには実は色々な論点が絡んでいて納得することは結構難しいという側面もあろうかと思います。
とりあえず誰にでも確認可能な事実として言えてしまうのは、少なくとも過去においては継続される傾向が物凄く弱いということ。まずはそれを確認することからスタートするのがわかりやすいのかもしれません。

よくやるやり方として「ある年のチームBABIP」と「翌年のチームBABIP」について、楽天加入以後、2005年からのデータで見てみるとやはりほとんど相関はありません。高いBABIPを記録したチームは翌年も高いBABIPを記録するという傾向はこの期間に関して統計的にはないということです。

そもそも2010阪神の.330というのはどれくらい高い値なのか。
2005年~2010年のチームBABIPは正規分布的に分布しており、平均は.309(なお、犠打と犠飛は含めない式を使用しています)。
標準偏差は約.010で、72サンプルのうち51サンプル(71%)が.300~.320の間に入っています。
.330は平均から標準偏差ふたつ分も離れた値であり例外的に高いと言っていいでしょう。実際2005年以降では最も高い数値です。

ここまで見ただけでも、いかにも平均へ回帰しそうだなぁという感じですが、高いBABIPのチームがそう単純に平均に引き戻されるというのも不思議な感じもするので、過去に「高いBABIPを記録したチーム」がどうなったのか見てみます。
2009年までで、.320を超えるBABIPを記録したチームは5チームあり、それぞれのチームの翌年のBABIPがどうなったのかをまとめると、以下のようになります。

2009日本ハム .329 → .322
2005ヤクルト .324 → .305
2005阪 神  .324 → .315
2005ロッテ  .324 → .301
2008阪 神  .321 → .295

日本ハムなど継続して高い数値を残している例もあるにはありますが、「高かった年」の平均は.324であるのに対して「高かった年の翌年」の平均は.308となっており、グループとして高かった例を抜き出してみても結局翌年の期待値は全体の平均と変わらない、ということになりそうです。
ちなみに「低かった年」のグループを調べてみても同じように翌年は平均に近い数字を出しているので、なかなか面白いものです。

プレーにおける意味としてBABIPをどう捉えるかは別として、こういうふうに確認できることは確認しておくと不要な議論はわりと減らせるってところはあるんじゃないでしょうか。普遍的な傾向として考えるには、今回のデータではサンプルが少なすぎますけど。

スポンサーサイト

Getting defensive (THT)


Getting defensive (THT)

最近THTの新しい記事を追えていなかったのですが
Tangotigerがwell-writtenと評しているので読んでみると本当にwell-written。

打撃の評価は簡単で、投手の評価も比較的簡単なのに、守備の評価はやたらに難しい。
これはなんなんだ、ということで、学説史的にさまざまな指標を紹介しつつ要点をサマライズしています。
守備率を除いて最初に出てきたのはRange Factorなど個別の要素を踏まえない総計のデータ(補殺とかが該当)による指標で、その後ひとつひとつの打球の内容を集計するというZone Ratingが出てきた、というところまではまぁお馴染みの説明。
そしてそこからUZRなどの指標にも疑問はあるんじゃないのかということを掘り下げ、興味深いことにUZR以後に開発された守備指標のいくつかはデータの細かさという意味では後退している(あえてそういうものを開発している)、ということに注目しています。
集められた「詳細なデータ」に問題が含まれていることが考えられるならむしろ、長期的にデータを扱うことを覚悟すれば一般的な総計データのほうが客観的で有用なのではないかという観点でしょう。
しかしまた、そうは言ってもそれってどうなん、ということでさらに上の次元としてFieldf/xがもたらす革新の可能性に言及しています。


ちなみに冒頭のあたりに「私たちが本当に知りたいことは、(守備の)機会に対して誰が最も多くのプレーを成立させたかということだけである。問題は、いくつの守備プレーを成立させたかはわかるのに選手個々の機会の正確な測定ができないことだ」みたいなことが書いてあるのですがこれは本当に守備指標について語るときにまず認識しておくべき問いだと思います。打率の計算に喩えて言えば、安打数はわかるのに打数がわからないという状況に置かれている。

この前Baseball Labに守備指標の記事を書いたとき、指標の説明に関して「BIPを使用するとRFの欠点が改善される、ゴロ/フライも考慮することでさらに精度アップ」といった「RFからの改善」の視点に重点を置いて書こうかとも考えたのですが、結局のところそれは手段の問題であり、より根本的に重要なのは守備において利得が生まれる構造だと考えてどちらかと言えばそちらを尊重する書き方にしました。
その意味をわかりやすく説明できたとは言い難いし、結果として、完成した指標によってRFの問題点がどのように解決したのかという部分もわかりにくくなってしまったのですが、まぁこれはこれでひとつの筋なのではないかと考えております。

なお一応言っておくと、守備機会の推定でBIP(インプレー打球)をベースとすることによって「投手の奪三振能力に左右される」という欠点を埋め、被安打の概念も導入。さらに内野手はゴロ・外野手はフライに対象打球を絞ることによりゴロ/フライ傾向の偏りに対応、かつそれは直接集計されたデータなので推定をして計算するRRFよりも精度が高いはずだし何より筋道が通ります。右/左補正に関しては本質的にはRRFと相違なし。
そんなこんなで全体的にはRRFよりもすっきりして良いのではないかと考えておりますがまぁその辺の最終的な判断は指標を利用するみなさんにお任せします。

THTの記事の話に戻りますが、引用も豊富で勉強になりますよね。保存版の記事かもしれません。
こんなこと言及する必要もないんでしょうが、出している情報の少なくとも3倍や5倍は知識を持ってないとこれだけ書けないだろうから素直に尊敬するなぁと思ったり。

Baseball's Statistical Revolution


Digital Eyes Will Chart Baseball’s Unseen Skills (NYTimes.com)

いまさらといえば物凄くいまさらなのですが(日本のスポーツ紙にも出たりしたみたいなので)、なんだかイヤ~な感じがしてたので現実逃避するかのように細かいことは調べずになんとなく逃げていました。
でも勉強しなきゃなと思ってとりあえずネットでいくつかの記事を読んでみると、これ想像以上に嫌なものですね。嫌っていうか純粋にすごいことを認めなくちゃならないんですけど。

取り上げられているのはFIELD f/xという最近MLBで導入する動きのとある解析システム。これは、各球場に専用のカメラとソフトウェアを備え付けて打球の速さ・位置などをはじめ守備者の動き・送球の軌道や走者の動きまで客観的かつ詳細に記録するシステムです。

たとえば守備の解析などで、これまでもUZRに使われているような打球の細かいデータというのはありました。しかしそれらは人為的に区切ったフィールドのうちどこに飛んだか、(打球速度が)速い・ふつう・遅いのどれに入るか、フライかライナーか、など一定の離散的なカテゴリーに押し込んで分類するしかなかったものです。しかも、その分類の作業は結局人間の手で行うためいくらかの恣意性や偏りも指摘されています(これは別に記録するスタッフがいい加減に作業をしているとかいう問題ではなくて)。
これに対してFIELD f/xの場合映像解析システムが客観的に連続する動きを捉えていくので、その捉え方は特定の分類に押し込む必要がないだけでなく非常に正確かつ詳細になるとされているようです。
こうなれば特に守備指標には抜本的な改善が生まれそうだし、フィールド上で発生している多くの物事についてこれまでになかった解析が進むかもしれません。

セイバーメトリクスのような研究はよく数字遊びで意味がないみたいな批判をされますが、これはうまく使えればあまりにも意味がありすぎてヤバいでしょう。客観化・数値化に賛成の自分でもちょっとひく。
米国の一線のメトリシャンたちもこれが野球の解析にとって本質的な革新であることを異口同音に認めているようです。
これは「進歩」とかいうよりはむしろ、これまでは評価したいことを数字から迂回して解析していたけれども、FIELD f/xはもともと評価したかったことを直接わしづかみにして捕まえますって感じですかね。
レンジファクターとか計算してるのがなんなんだ、っていう(だから嫌な感じしたんです)。

付け加えて言えば、業界の構造みたいなものも一層変えていくかもしれません。前々からセイバーメトリクスの一定の部分(部分とは言っても少なくない範囲)は理系の学位を持っているような人たちのクラブになるだろうなぁと思ってはいたのですが、このレベルのデータになるとますます生の情報では素人は扱えないものであり、それを解析して意味のある結果を導くには高度な技能を持った専門家が必要となります。当然MLBの球団は積極的に雇うでしょうし、最先端の解析結果はやはり一般のオーディエンスには開かれない形となるような気がします。ファンとデータの関係とかもちょっと変わるかもしれませんね。
MLBの球団経営はMBA(or Lawyer)のGM+理系のドクターでキレイに収まりそうですが、それはそれで効率的すぎる感じがしてなんだか……。

とりあえずTHTのAnnual買って勉強しないと。

今年は全然サイト更新できませんでした

前にやったのと同じですが、サイトにある指標のreliabilityに関する項目を更新してみました。
理想としては今年中に自分的総合評価とかやっちゃいたかったのですが、どう考えても無理そうです。時間がない。
まぁ今年はBaseball Labに関わらせていただいているので、「セイバーメトリクスの話をしてくれる仲間を増やしたい」という当方の目的からすると差し引きでも大きなプラスなのではないかなぁと思っております(というかそう信じたい)。
Total WinのWAR移植(という言い方で伝わるのかよくわからないけれど)は楽しそうだから是非やりたいけど、来年ですね。

コラムは続々ときてますね


Win Sharesで見たMVPとベストナイン~パ・リーグ (Baseball Lab)

今年度のWin Sharesデータ。面白いですね。
それだけに、本当に守備位置ごとの絞込みとかソートができればなぁという面もありますが…。
算出法の概略も紹介されています。
「チームにまったく貢献できていない成績が基準」と言うときの、得点率0.52倍ってなんなんだ?と思われた方はTangotigerのサイトに走りましょう。
Tangotigerの簡潔な説明によれば、平均の約半分に対する上積みを評価するのは利得を勘定する仕組み上の結果的なものであるということです。
例えば攻守ともに平均的なチームは勝率.500であり(ざっくり言えば)その半分が攻撃と守備それぞれにいきます。すなわち攻撃.250:守備.250。
で、ここから攻撃のレベルと落としていくと勝率が下がるわけですが、守備は変わっていないわけだから守備に対する貢献は攻撃が平均的な場合と変わらないように保っておくようにすると
どんどん攻撃に分配できる貢献値が下がっていき、計算上得点率0.5倍のあたりでゼロになるわけです(具体的には、最初の守備の貢献値が.250なので、平均的な守備のときに勝率を.250以下にするような得点率が貢献値ゼロの得点率です)。
「平均の半分しか得点できないようではあまりにもひどいから、そんなのは全く貢献していないと考えよう」といった価値判断の結果でもなければ「一般的に最もひどい打者は得点率0.5倍のレベル」といった統計の結果でもなければリプレイスメント・レベルの類でもないということですね。
特定のパフォーマンス水準との比較というよりは得失点と勝率および貢献の付与に関する原理の問題であると。
これは面白いアイデアだと思います。


出塁率、長打率と1試合得点数との関係 (Baseball Lab)

美しい。FanGraphsやTHTに持っていってもウケそうですね。
私なんかは「統計モデル」と聞いただけで真似できないなぁと思っちゃいます。
J. アルバートの統計本でも買って勉強する気だけでも奮い立たせようかと思ったのですが、あまりにもわかんないし高いし……。もっと初歩から一歩一歩やるしかないか。

萩本欽一 :監督勇退試合

萩本欽一 :松坂投手率いるチームと監督勇退試合「本当に幸せでした!」と涙

 社会人野球チーム「茨城ゴールデンゴールズ(GG)」の監督を務めるタレントの萩本欽一さんが12日、メジャーリーガーの松坂大輔投手率いる野球チーム「サムライ」とのチャリティーゲームを神奈川県平塚市の平塚球場で開催。この試合で監督を勇退する萩本さんは試合後、1万2000人の観客に見守られる中、「本当に幸せでした。野球がこんなに楽しいということを、改めて気づきました。いろんな経験ができました。そして今日、この平塚で、みなさんとさよならできたことも、深く深く思い出に残ります。本当にみなさん、ありがとうございました!」と涙。選手らに胴上げされた後も、萩本さんは「欽ちゃん、ありがとう!」「また野球やってね!」と声をかけるファンらと触れ合いながら、「ありがとねえ!」「さよなら!」と名残惜しそうにグラウンドを一周した。

毎日新聞デジタル



平塚球場に行って見てきました。写真を載せようかとも思ったけど遠すぎてあまりにも無意味な感じなので省略。
松坂がショートの位置に立ってるだけで「おぉ」という感じだったり、いきなりバコーンとホームラン打ったのに驚いたり、上地くんとともに9回に5度ぐらい代打で出てきのに驚いたり、色々ありましたがなにしろゴールデンゴールズの試合を見るのがはじめてだったので(にわかで申し訳ない)すごく平和な世界が作られていたことに感動しました。
凹んだことといえば、田中一徳が全然走れなくなっていたことくらいか(冗談です)。

日本版UZR(2009)


日本版Ultimate Zone Rating(UZR)プロトタイプ (Baseball Lab)

日本では今まで出てこなかったUZR、今年の分の集計はまだのようですが、コンセプトの説明と2009年のポジションごとの成績が公開されています。
アジャストメントの類もMLBで発表されているものに比べるとまだ整備されていないところもあるようですが日本でゾーンのデータが見られるのなんて10年先かもと思っていたところもあるので、それが出ているだけでも素晴らしいと言うべきでしょう。

ちなみに、仮に今後日本でゾーンのデータが完備されても当方がサイトで出しているようなレンジの数字の公開も当面は続けたいと思っています。私としては、性質の違いもさることながらできるだけ公式記録から「誰でも計算して確認できる」数字があることも大事だと思っているので。まぁ、基本的に有用性はゾーンですけど。

サイト更新 12/7

サイトの打者評価・投手評価に2010年分のデータを追加しました。
更新してみると半年ぶりくらいで、なかなかできてないなぁと思いました。それにしてもうちのサイトはデータだけの更新だと(守備指標でもない限り)価値ないっすね。コラム的なものも更新しようとは思っていますので一応忘れ去らないようよろしくお願いします(まぁ、たまーに見ていただければそれでいいんですけど)。


さて、連日面白い記事がアップされているBaseball Labですが、本日の岡田氏によるコラム「外野手の肩~Part1」はこれまで日本で見られなかったアームレイティング(外野手の肩の評価)についてわかりやすい説明と詳細なデータが見られ、非常に面白いです。

実利的かつ詳細なセイバーメトリクスの分析が日本にも入ってくると本当に楽しいですね。

 | HOME | 

プロフィール

管理者:クロスケ

野球全般好きで、プロ野球をよく見ますが特定の球団のファンではありません。
セイバーメトリクス(野球の統計的分析)の話題が多く、馴染みのない方にはわかりにくい内容があるかもしれませんがサイトに体系的にまとめています。

Baseball Concrete



RSSフィード

最近の記事

最近のコメント

カテゴリー

月別アーカイブ

上記広告は1ヶ月以上更新のないブログに表示されています。新しい記事を書くことで広告を消せます。