Baseball Concrete Blog

主にプロ野球について、セイバーメトリクス的な考えを交えながら好きなことを書いています。

スポンサーサイト

上記の広告は1ヶ月以上更新のないブログに表示されています。
新しい記事を書く事で広告が消せます。

成績予測をどう扱うべきか

「セイバーメトリクス・リポート」、すでにネット上でも感想を書いて下さっている方がいらっしゃいますね。ありがとうございます。

さて、私は同書の中で日本プロ野球の(統計データに基づく)成績予測を行っています。書籍の中ではほとんど内容の説明がなかったので、今回はちょっとこれについて書いてみようかと思います。


マネー・ボールなどである程度お馴染みかもしれませんが、アメリカでは仮想のチーム編成ゲームであるファンタジー・ベースボールの隆盛も手伝って統計に基づく成績予測というものは以前から非常に活発に行われています。
色々な手法がありますが、結局のところこの成績予測の本質とはどういうものなのか。

いくらか語弊があるかもしれないことを承知で、ざっくりと本質を掴むために一言で言うと、私はセイバーメトリクスによる成績予測は「これまで打率が高かった選手はこれからも高いだろうし、本塁打が多かった選手はやっぱりこれからも多いよね」というものだと思っています。
各種の指標の過去の高低は一定のレベルで継続していく傾向がある、という統計的な法則を利用するのです。
そもそも統計というものが「過去の経験を整理して未来に活かす」という性質を持つものですから、いかに過去の情報(どのようなデータに期間的な関連性があるか、等々)をうまく整理していくかという問題になります。
本塁打を40本打った選手と5本打った選手の将来を予測するとき、前者のほうが後者より来年も多く打つだろうと考えるのは単純ですが妥当でしょう(※参考)。

もちろん実際に算出を行うにあたっては、色々と細かい補正はあります。
ただし、基本はどの予測システムでも同じではないか、と思います。
(ちなみに私が用いた成績予測の算出方法はサイトに掲載しています。2012予測にあたって改訂はしていますが)

ここまでの話では、「そんな単純なことだったらわざわざデータをこねくり回さなくたって、日常的に野球見てればわかるよ」と思われるかもしれません。
しかしここでは主観のバイアスの危険に対抗するという効用が指摘できると思います。

例えば、数値を使わずに評価を行うと印象的だった短期の成績や、記憶が鮮明なつい最近(直近のシーズン後半)の活躍度合の重要性を過大評価してしまうといった偏向があらわれがちであることが認知心理学的な知見からは知られています。
統計的にはあくまでも短期間の成績はアテにならないものであり、全体のデータから冷静に予測を行うことでそういった偏りを避けることができるというわけです。

また、場当たり的に個別の予測をしていくと、知らず知らずのうちに全体に対して楽観的な、あるいは悲観的な予測をしてしまうといった偏りも時に生じることも考えられます。
一人ひとりの予測をしていった結果、それをチーム打率として集計してみるとあり得ないほど高くなってしまう、など。
後出しでそれに気付いて無理に調整をしても、全体の傾向に対して整合的な予測をしているとは言い難いところがあります。

統計的な成績予測はこれらの偏りを避け、あくまで冷静に「過去のデータからすればこれくらい」といった結果を提示します。
個別の結果は正直なところズバズバ当たりはしないというか、結構外れます。
ただ、繰り返しになりますが、一般的な傾向に対して矛盾しない、「このくらいの成績を基準として、上にブレるかもしれないし下にブレるかもしれない」と考えるのに役立つ「基準」を提供します。
物事に対して個別的に向き合っていくと、個別事象は必ずしも全体の傾向と同じ振る舞いをするわけではないということを意識してしまいますが、全体としては「全体としてはこういう傾向がある」という傾向から逃げることは難しいのです。

現段階で私からオススメする成績予測の使用法は、ここまで説明したような意味での「基準」として用いることです。


コメント

お久しぶりです。
セイバーメトリクスリポート拝読いたしました。個人的には投手の年齢による影響に関する見方が面白かったですね。
プロジェクションの予測値は仰るとおり基準として考えると、今季がどれだけ好調か、または不調かといった視点で楽しむこととか出来そうですね。当然運もあるでしょうけど。
ちなみに私は新季は得点水準が結構揺り戻されるんじゃないかと考えてます。昨季は必要以上に打ち方を大きく変更する選手が多かったんちゃうかなって程度の考えですが。

お久しぶりです。お読みいただきありがとうございます。
今回の書籍、Sibierskiさんのようなセイバーの知識がある方がどうお感じになるかというのは結構気になるところです。

面白いことですが、未来の予測は不確実であるものの事後的に「このとき選手の真の能力だったと思われる水準」に関してはより高い精度で推定できるんですよね。
例えば2007年の選手の実力を推定するのに「前後」5年の成績、すなわち2005~2009の成績の平均を取ってみれば、だいたい当時の実力というものが判定できます。
この推定と2007年の実際の成績にはおそらくズレが生じるわけですが、このズレは好不調とかサンプル数的なブレと考えられるもので、正直プロジェクションでこれを予測するのは無理なわけです(おそらく)。
そのようなズレの一般的な大きさ(標準偏差)というのが、プロジェクションの精度の限界ということかもしれません。

得点水準の揺り戻しは、私もはっきりとした根拠では示せないもののありそうだと思っています。
書籍のプロジェクションは傑出度ベースで選手の成績を出して2011年の平均を掛け算しているので
打者なんかは全体的に数字が低く出てしまっているかもしれません。

厳しい言い方をするようなのですが、一部意味の無い成績予測のように思います。
特に、去年先発で一定以上の成績を残していて、過去の先発データが少ない投手に関して
「防御率はまあまあなのに投球回と勝敗数が極端に少ない」という選手がおり、
シーズン途中で故障するか配置転換をしないと現実的には残らない成績です。
データが少ない弊害なのかもしれませんが、一概に傾向や平均値という見方をする以外にも、
起用ごとで予測の基準を変える必要があると思います。

あとは(良くも悪くも)傑出した成績を残した選手の成績が、振り戻され過ぎに感じます。
バレンティンの打率が上がり方や、中村の本塁打の減り方などですが
このあたりも、やはり実績と年齢以外の「上がり目」「下がり目」といった
扱いづらい何かを考慮しなければならないのでしょうか。

どちらかと言うと素人ファン目線での違和感の話でした。
文句ばかり書きましたが、頑張って下さい。

あかいさん、はじめまして。
ご意見ありがとうございます。
文句なんてとんでもないです。参考になります。

「振り戻され過ぎ」に関しては自分でも意識しているところもあるのですが
項目ごとの性格や、基準を2011年平均に対する傑出度でとっている関係でご指摘のように見えやすい面も多少あるかもしれません。

例えば、私の成績予測では中村選手の(打席あたり)本塁打率を5.8%としています。これは2011年のリーグ平均と対比させれば4.1倍の数値です。
一方、最近3年の実績では2011年から順に5.4倍、3.2倍、3.7倍となっており(3年の合計で見ると4.0倍)、確かに2011年だけと比べると下がっていますが、サンプルサイズの問題を考えもう少し長期で見ると傑出度は順当に反映されているのではないかと思います。
2011年基準ではリーグ平均が低いので絶対値が冴えないですが、仮にリーグの平均的な本塁打率を2、3年前の水準とすれば、予想本塁打数は48本になります。

つまり、中村選手の本塁打(傑出度)は多少長期的に見れば特に振り戻されてはいない、ということです。
一方打率は、構成要素として大きいBABIP(グラウンド上に飛んだ打球がヒットになる割合)の部分が長期的には選手ごとに差が付きにくい傾向にあるのでどの選手も平均に戻される度合いが大きいものとなっています。
ちょっとわかりにくいかもしれませんが、このあたりデータを見る上での参考にしていただけますと幸いです。

まぁ、中村選手に関しては、そうは言っても実際問題その2011年に48本も打ったではないか、という印象を私でも持つのですが。
予測システムとしては彼のような「例外」に対応するのは難しいということと、2011年の622打席だけでは今後も全く同じレベルの傑出が続くと断定はできないというところです。

クロスケさんご無沙汰しています!
道作さんのブログで本著を知ったのですが、やっぱりクロスケさんも執筆陣に名を連ねていたのですね。
いましがた、amazonでポチリましたよ(^^)
個人的には、ずっとバタバタしており野球観戦数も激減していたこの2年ですが、皆さんがこうして活躍するとあらば、また観ようという思いも沸々と湧いてきます。
今後の活躍を期待しております

お久しぶりです!
ご購入ありがとうございます。
masaka2さんのように以前から付き合いのある方にお読みいただくのが一番嬉し恥ずかし、という感じがいたします 笑
私の方は相変わらずで細々としたデータをいじっておりますので、お忙しいかとは思いますが気分転換にご笑覧いただけますと幸いです。

私も本購入しました。今読んでいますが面白いです。
ただ、当初の期待と構成が違っていたのが残念です。
私はてっきりbaseball prospectusのような本だと思っていました。なので成績予測が一覧でざっと書かれているだけで、全選手の過去データ、寸評などがのっていなかったのが残念でした。来年はぜひbaseball prospectusのような本を出版してほしいです。

すいすいさん、はじめまして。
ご購入ありがとうございます。

そして構成に関する貴重なご意見、ありがとうございます。今後の参考にさせていただきます。
やはりBPやTHTなどは研究・データが進んでいるだけでなくあらゆる意味で完成度が高いですよね。そのまま真似しても仕方がないですが、ああいったレベルをひとつの目標として目指していきたいところです。

出社前に届いて、今、読ませてもらってます。
クロスケさんが、NPBの成績予測をされている方ですよね?
全執筆陣の中で、一番、チャレンジングで度胸が必要なところを受け持ったうえに、その予想の数字もまったく球を置きにいっておらず超超超(X100回)好感が持てます。
もちろん、他の方の記事もそうですが、みなさんの心意気がビシバシ伝わる次第です。すごいっす!

あえて、希望をいうと、本がこんなに大きくて重いと思わなかったので、iPadなどのタブレットで読みたいっす。
デジタル化してしまったほうが、すごく付加価値もでそうです!どっちがコストが高くつくかわからないですし、どちらが売上貢献するか、私にはわからないので、ただのわがまま無責任発言ですが、次回以降期待しております。

かなり贔屓目な感想をいただいてしまっている気がしますが、ありがとうございます。

> クロスケさんが、NPBの成績予測をされている方ですよね?

そうです。私だけでなくて、みなさんチャレンジングだと思います。
道作さんの思考なども、我々からすると馴染みのあるところですが、こうして改めて本になると凄みを感じますよね。

> あえて、希望をいうと、本がこんなに大きくて重いと思わなかったので、iPadなどのタブレットで読みたいっす。

このあたりは時流でしょうか。電子書籍があると思ってしまうと、リアル書籍のかさばり方はかなりウザく感じてしまう時がありますよね。
もちろん私に全く決定権はありませんのでどうなるかはわかりませんが、参考にさせていただきます。

まだ5月になったばかりですがバレンティンの高打率や中村の低本塁打数を見ると、数字以上に正確な成績予測と言うのは難しいのだと思いますね。

シーズン全体でどうなるでしょうかね。
統計的に出る予想が当たれば当たるで嬉しいですが、あくまで統計的に予想である分だけ「このぐらい当たってこのぐらい外れる」というのは事前から結構明らかなので、個別の事例に一喜一憂もできないところで。

成績予測について質問です。ルーキーで1年しか成績が無い場合は、どのように予測するのでしょうか?平均に回帰するということであれば、リーグ平均値を入れて計算するのかなと考えたのですが…。

ようたんさん、こんにちは。
久しぶりにブログにコメントが来て嬉しいです。

1年しか成績が無い場合、ということですが、特に本質的な区別はなくその1年の成績を使って予測を行います。
ここで問題になるのは仰るように「平均への回帰」ですが、サンプルとして使用できる成績の量が少ない場合、平均へ回帰する度合いが強くなるというシステムになっています。

例えば1800打席のデータがある選手は15%程度平均の成績を混ぜるだけで済むのに対して、500打席のデータしかない選手は40%くらい平均の成績を混ぜる必要がある、といったイメージです。

このあたりの理屈に関しては日本語できちんと説明したものが存在しないという問題がありまして当方も勉強するのに苦労しました(というか勉強中)。
「平均への回帰」一般論についてテクニカルな内容は下記URLなんかで書いてます。もし何かの参考になれば。

http://baseballconcrete.web.fc2.com/alacarte/theory_of_reliability.html

クロスケさん、回答ありがとうございます。
疑問が解けてすっきりしました。
足りない年度の成績はファームの成績やAAAの成績、メジャーの成績を変換
して使うことにすれば、より精密な成績予測ができて(それが妥当かどうかは
置いておいて)楽しみが広がる気がします。

そうですね。
現状では一軍成績だけを使うので一軍実績のない選手に関しては予測が不可能で、せめて二軍の成績がある選手についてはそこから一軍で出場した場合の成績を予測、というのは前々からやりたいと思っています。
アルゴリズムをどうするかというのはなかなか難しいでしょうが。

コメントの投稿

管理者にだけ表示を許可する

トラックバック

http://bbalone.blog119.fc2.com/tb.php/525-834ded9f

 | HOME | 

プロフィール

管理者:クロスケ

野球全般好きで、プロ野球をよく見ますが特定の球団のファンではありません。
セイバーメトリクス(野球の統計的分析)の話題が多く、馴染みのない方にはわかりにくい内容があるかもしれませんがサイトに体系的にまとめています。

Baseball Concrete



RSSフィード

最近の記事

最近のコメント

カテゴリー

月別アーカイブ

上記広告は1ヶ月以上更新のないブログに表示されています。新しい記事を書くことで広告を消せます。