Baseball Concrete Blog

主にプロ野球について、セイバーメトリクス的な考えを交えながら好きなことを書いています。

スポンサーサイト

上記の広告は1ヶ月以上更新のないブログに表示されています。
新しい記事を書く事で広告が消せます。

やっぱり向こうはすごい

Baseball ReferenceというMLBのデータサイトが恐ろしいことになっている。比較的最近?リニューアルしたようで噂には聞いていたんですが。
あらゆるメジャーリーガーの成績が検索可能で、その中の情報の細かさが半端じゃないです。
打撃のBatting Runsとか細かいの揃えてるのはまぁ当たり前として
走塁のデータで一塁にいるとき単打が出たうち二塁へ進んだのがいくつで三塁へ進んだのがいくつでなんてデータに加え
守備に関してもplay-by-playデータを利用したFielding Runs Above Averageのレーティングをはじめ刺殺のうちフライの捕球がいくつでフォースアウトのがいくつでといった併殺関与の細かい内訳とか
外野手のアーム評価に使える走者に進塁された数とか
なんというかもうとにかく細かく挙げるのが面倒臭くてしょうがないくらい今までブラックボックスだったデータが詳細に披露されちゃってます。

例:デレック・ジーターのバッティングページ
例:イチローのフィールディングページ

こういうのは試合をプレーごとに細かく記録したログ(play-by-playデータベース)からくるもので
MLBにはRetroSheetという一般に開かれているそういうものがあるということで、非常に重宝されているわけなんですが
やはり「日本版RetroSheet」がいつできるかですねぇ。
少なく見ても10年はあり得ない気が。

スポンサーサイト

巨人3連覇!


というわけでおめでとうございます。
原監督はインタビューでも少し貫禄が出てきた気がする……かな?


で、やはりMVPは巨人から選ばれるのかなぁ、そうしたら誰かなぁなんてことを考えつつ成績を見ていました。
22日時点の成績ですが、打者で主に貢献したのは以下の面子。RCとRCAA(RCAAは算出に投手打席含めてます)。

     RC RCAA
小笠原  98 42
ラミレス 95 33
坂本   91 28
亀井   83 27
阿部   76 31
谷    52 24
松本   36 -5

得点創出の合計でも傑出度でも小笠原はリーグ屈指なので
MVPの筆頭候補なのかなぁと思います。
ただ打率や本塁打の成績ではラミレスと似ていて、ラミレスが首位打者獲ればラミレスの線が濃くなるのか。
個人的にはこのままいけば小笠原にしたいところ。
それにしても坂本はとんでもないレアメタルだったわけですねぇ。



投手はサイトで算出している期待勝利(失点率とイニング数から、平均的な援護で何勝分の働きに値すると評価できるか)で見てみると

      期待勝利 期待敗北
ゴンザレス   12.5  4.0
内海 哲也    9.9  7.6
東野 峻     9.7  7.0
グライシンガー 8.2  9.1
高橋 尚成    7.3  7.0
山口 鉄也    7.3  1.0
越智 大祐    4.7  2.9
クルーン    4.5  0.9

ゴンザレスはRSAAも29ですからかなり立派なのですが
投手に関しては中日の吉見とチェンがそれぞれ期待勝利で14.7と14.4、チェンのRSAAが38だったりしますから
投手陣のほうは傑出の印象が弱いという感は否めません。
山口は今シーズン最も優れた救援投手だった可能性はあるんですが、MVPに推すには勇気がいるかなぁ。

暇潰しの一種です

前回の記事のネタゲーム
別に表さえ出せばやってもらえるってことに(利便性は落ちますが)気付いたので
ほんの遊びとしてサイトにアップしてみました。

Doubt!

10問全て正解はおそらく無理なのではないかなぁ。


暇潰しの一種か

遊びとしてみなさんも体験して下さい…と言いたいようなネタですが配布するようなシロモノ作れないのでちょっとした実験の一種として見てもらいたいのですが
Visual Basic(プログラミング言語)の勉強をするのになんか自分の使ってみたいプログラム作ってみるのがいいんだろうなぁと思いつつ、でも野球のシミュレータ作ったらあとは作りたいものがないのでどうしようと思いつつ
結局単に乱数で遊んでみました。

doubt

考えたのは以下のような遊びです。

1.平均的な能力(打席に対して四死球や安打などの結果を出すそれぞれの確率)の打者を設定する。
2.乱数を使い打席の試行を繰り返す(今回は500打席)。本来の確率は不変でも結果は毎回いくらかブレるのがポイント。
3.そのようにして生成した成績を9人分ズラっと並べる。
4.ただしそのうち1人、実は平均的な能力ではない打者が混じっている。控えレベルの打てない打者か各チームのNo.1クラスの強打者のどちらかだが、どちらのタイプかはわからない。
5.成績を見て、9人の中でどれが「仲間外れ」か当てられるか?

という内容。
要はサンプル数っていう話で、別にやったところで意味もないんでしょうが何故か実験したくなってしまいしばらく一人でポチポチやっていました。
やっているうちになんとなくチューリング・テストを連想するから面白いものです(コンピュータや確率を見ているようでいて人間のテストになるからでしょうか)。
ちなみに自分でやってみて正答率は73%でした。高いんだか低いんだか。
結果として思ったのはIsoPって打者のタレントを表すのによく使えるなぁとか。

勉強中

禁セイバーメトリクスはどこへやら、こんなの作って時間潰しております。

開発中のもの

まぁ、プログラミングの勉強は教養ということで……。
今までインターフェースを汎用的な形にまとめるとこまでやったことないのでやってみようと思ったのですが難しいですね。これじゃ絶対使いにくいし。
Naranjaさんみたいなデータ収集とかも何を勉強すればいいのかすらわかりません。




遊びで平均的な打撃成績で打順ごとに一試合どのくらいの打席数が回ってくるかシミュレータに数えさせてみました。

理論上の試合あたり打席数
1番 4.93
2番 4.81
3番 4.70
4番 4.58
5番 4.47
6番 4.37
7番 4.26
8番 4.15
9番 4.04

140試合換算では打順ひとつ下がるごとに年間の打席数は約15減ります。
打順間の割合では『THE BOOK』によるシミュレーションとほぼ完全に一致する結果となりました。
しっかし、色々と計算で求められるようになったらより確実なんでしょうがマルコフ連鎖とか一生扱える気がしません。

新総理はセイバーメトリシャン?

セイバーメトリクスが話題にできそうなときには一応やっておきたくなる貧乏気質な者です。
既に道作さんの掲示板で話題になっていること。


鳩山由紀夫氏が30年ほど前に野球の数学的な分析を行った論文を発表しており
論文の検索サイトからプレビューで読めます。

野球のOR(http://ci.nii.ac.jp/naid/110001186623

当時としてはなかなかに最先端の内容であったと思われますし
今見ても面白く読めるものであり演繹による得点期待値・得点確率などくどくどした説明なしに示している点は鮮やかです。
私は数学ダメなんで数式の細かいところまでは理解しきれませんが得点期待値なんかは中身としては『メジャーリーグの数理科学』にあるデソポ・レフコウィッツのあれと同等なんじゃないでしょうかね。




ついでに論文に刺激されて少し理論的な話を。
出塁のうちの四球:単打:二塁打:三塁打:本塁打それぞれの割合は固定するとして
出塁率が上がっていくと得点はどのように上がっていくものなのか。
これはただ単に出塁率の上昇に比例して一直線に上がっていくのではなく、出塁率が高まるほどに増加の幅も大きくなる加速度的な変化を見せます。
何故そういう加速度的な変化をするかというと、出塁率が高まるほどに出塁が「集中」するので走者がホームに押し出される割合が多くなり出塁ひとつあたりの得点寄与が上がるっていうことですね。
出塁率と進塁の設定からシミュレーション的に得点を導くDLSIというモデルとLWTS(イベントに一定の加重をして得点化するモデル)を使いその関係をグラフにしたものが以下。

得点期待値変化

横の軸が出塁率で縦が1イニングでの期待得点を表しています。
DLSIのほうがしなやかな曲線を描いているのが一目瞭然ですね。
これがRCとかで言う出塁の集中を捉えるという利点で、野球の実情に近いものです。
今回の算出は簡易的なもので通常よくある出塁率レベルではどもモデルも一致の精度が高いっていうのはポイントなんですけどね。
たいした話じゃなかったですがこのグラフを見ると個人的には何か気持ちがいいのです。

ちなみにほんのちょっとしたクイズですけど理論的に出塁率99%のときイニングの得点がだいたい何点になるかっていうのがすぐわかる人は多いんでしょうか。


楽天のパークファクター

E党5年目さんのブログで拝見したんですが
楽天が前半戦と後半戦で使うボールを分けているってことに関する記事です。

野村・楽天、好調の秘密!?飛ぶボールと飛ばないボール。

ネタは興味深いのですが、書かれているロジックがどうしてもすっきり落ちません。
楽天が特段小技を駆使するチームなのかよくわかりませんが、まぁその辺の仮定をあてはめるとしても
夏場に投手陣がダレてくるならPFを上げると楽天の場合相対的な投手陣の層の薄さを顕在化させてしまうんじゃないかとか。
その他の報道を見るに野村監督主導でやったことではない感じなのでおそらく何者かの緻密な研究ありきでのことだと思われますが
シーズン途中でPFを変えるってどれだけ良い策なのか、良い策だとしてどういう理由でなのか……気になります。

ちなみに数字を見ると、たしかに去年も今年も前半戦は平均よりやや低いPFで後半戦はかなり高いPFになっています。
しかし2年連続でホームの試合において「増加した自軍の得点」よりも「増加した相手の得点」のほうが多くなっており、去年は前半戦に比べて後半戦でホームでの勝率を1割近く落としています。
今年の好調も、ビジターで勝っていることの影響のほうが大きいです。本当にPFでプラスの効果が出ているんだろうか。
何か裏に特殊な理由が隠れている気がするんですが、わからないですね。


BTウィークリー

BTウィークリーを、昨日やっと見かけたので買いました。
面白ければ今度こそ定期購読をしようかなと。

しかし、読んでみると内容的には対戦球団ごとの打率だとかのミクロデータの嵐。
「サンプル数」の一言で大概は吹き飛んでしまいそうですし
どこかで見たような「誰々が得点を記録した場合とそうでない場合の勝率を比較すると……」みたいな話まで出てきてしまって
やっぱりミクロを追うとこうなってしまうのかと結構残念でした。
個人的にはほとんど読むところがなかったです。
面白いのはやはり「野球アナリストの視点」ですね。

BTウィークリーが一般的に見て面白いのかどうかということは、私にはよくわかりません。
ただ私の好きな「セイバーメトリクス」ではなかったです。


スポーツ統計

日本統計学会 スポーツ統計分科会(http://www.math.chuo-u.ac.jp/~sakaori/sports/)という組織が存在するのですね。存じ上げませんでした。
それで、つい先日行われたばかりの様子の 企画セッション「スポーツ統計科学の新たな挑戦」(http://www.math.chuo-u.ac.jp/~sakaori/sports/090908.htm) は概要を見るに面白そうだなぁと思います。思いきりセイバーメトリクスじゃないですか。
データスタジアムの方に、なんとJim Albert……。
どこかに参加された方のレポートってあるのでしょうか。内容気になります。


守備位置別打撃レベルと控え選手打撃レベル

サイト更新。

守備位置別打撃レベルと控え選手打撃レベル

わりと研究らしい研究をした気分というか、やってみて思ったより面白かった解析。
なんでこんなことやってて面白いのか自分でもよくわかりませんが、まぁ世の中にはペットボトルのフタを集める人もいるらしいですし何が趣味でも問題ないでしょう。
ちなみに前回出した分布のネタはこのために集めたデータからの副産物で、こっちが本番だったりします(前回のが手抜きとかいうことじゃないですけど)。

ちょっとのことでどうでもいいですがそろそろ、シーズンのスタッツが出揃う頃までの数ヶ月は禁酒禁煙ならぬ禁セイバーメトリクスしたほうがいいのかもと思っております。
純粋な読者側に周りたいところで、日本でもセイバーメトリクスに詳しい人って今はいっぱいいると思うのでそういう人がもっとサイトを作ったり情報を発信してくれたら嬉しいんですけどねぇ。
ひっそりとやってるのも嫌いじゃないものの。
あーでもボツにしようかどうしようか迷ってる原稿がひとつあるんだった……気が向いたらアップするかもしれません。


指標の分布

指標の分布

読み物というよりデータですが、各選手の出塁率とかOPSとか失点率とかがどう分布しているのかという資料。当たり前のことを当たり前のこととしてまとめておくのも大切なこと……ですよね。


Theoretical Team Base Runs

この前の記事でBase Runsからリーグごとにイベントの加重を取り出すような方法について書いたんですが
色々いじるほどにぶっちゃけそこまでやる必要はないと思えてきました。
それこそあの記事に書いたようなある程度generalな加重があればそれで十分で、そこから普通にBatting Runs Above Averageを算出することにしました。
内野守備評価も作ったから、総合評価にするためにはあとは守備位置補正だなぁ。道作さんのところの掲示板でもちょっと話題になったことですが、二塁がどうも気持ち悪い。守備位置補正について何か良いアイデアないですかねぇ。



というわけで、試しに作ってはみたけど多分あまり使うことはない、BsRを打者個人に適用するための理論上チーム補正式。
BsRはそのままでは、ざっくり言えばチーム打撃成績用の式ですが以下のような補正をすることで打者個人の得点創出を算出できます。


TTBsR = (A+2.44×E)×(B+2.31×E)/((B+2.31×E)+(C+5.55×E))+(D+0.21×E)-0.148×(C+5.55×E)
 A = 安打+四球+死球-本塁打-0.5×故意四球
 B = 1.4×塁打-0.6×安打-3×本塁打+0.1×(四球-故意四球+死球)+0.9×(盗塁-盗塁刺-併殺打)
 C = 打数-安打+盗塁刺+併殺打
 D = 本塁打
 E = 打数+四球+死球


このめんどくささでLWTSと99%一致するんですから使う気なくなります。いや別にこれ自体は良いとは思うんですけど。

追記:あれ、最後は-0.148×(C+5.55×E)じゃなくて-0.92×Eのほうがいいかな。微妙。

 | HOME | 

プロフィール

管理者:クロスケ

野球全般好きで、プロ野球をよく見ますが特定の球団のファンではありません。
セイバーメトリクス(野球の統計的分析)の話題が多く、馴染みのない方にはわかりにくい内容があるかもしれませんがサイトに体系的にまとめています。

Baseball Concrete



RSSフィード

最近の記事

最近のコメント

カテゴリー

月別アーカイブ

上記広告は1ヶ月以上更新のないブログに表示されています。新しい記事を書くことで広告を消せます。