Baseball Concrete Blog

主にプロ野球について、セイバーメトリクス的な考えを交えながら好きなことを書いています。

スポンサーサイト

上記の広告は1ヶ月以上更新のないブログに表示されています。
新しい記事を書く事で広告が消せます。

The Marcels

サイトや書籍で成績予測を出している私ですが、今日また急に成績予測(プロジェクション)システムを研究したい熱が湧いてきて、改めてMarcelの勉強などをしておりました。

MarcelというのはセイバーメトリシャンのTangotigerが開発した成績予測システムです。
MLB好きであればご存知の方も多いかとは思いますが、日本ではほぼ聞く機会がないのでその予測が公開されいているページをリファレンスとして載せておきます。

http://www.tangotiger.net/marcel/

Marcelの算出法、Tangotiger自身による解説は以下です。

http://www.tangotiger.net/archives/stud0346.shtml

あるいは、ほかの人による平易な説明も。

http://triplesalley.wordpress.com/2010/12/22/marcel-and-forecasting-systems/

貴重な日本語でのMarcel言及記事。

阿部離脱の影響


Marcelは簡単に言うと、選手の過去3年の成績を、新しい成績ほど比重が大きくなるように重みづけして合計し、平均への回帰と年齢の変化についての補正を加えたものです。

これは統計学と堅く考えなくても、選手の成績を予測するなら「過去の成績がある程度は継続するだろうし、それにおいては最近の成績ほど将来との関係は強いだろう。また極端な成績はある程度振りもどされるようだし、年齢というのも客観的に明らかな要素として考慮する必要がある」といったふうに考えるのはかなり自然で、これをそのまま計算式に落としたものとも言えます。なので考え自体は全く難しいものではありません。

米国には多くのプロジェクションがある中でTangotigerがMarcelを開発したのは、数あるプロジェクションシステムの基準として、考えられる最小限の要件でプロジェクションシステムを構築した場合にどういう結果が得られるのかを出すという意図に基づいています(このためMarcelは、サルでもできる成績予測という異名があります。というかMarcelという名前がサル由来らしい)。

従って例えばFanGraphsでMarcelを見て結果が外れていても「Tangotigerによる予測」の精度が低いと考えるのはお門違いだったりします。MarcelはTangotigerが持ちうる限りの知性を使って正確な予測をしようと構築したものではなく、できるだけシンプルにと作ったシステムですから。実際、他の多数のプロジェクションシステムに比べてMarcelは非常にシンプルです。

そうするとやはりMarcelの精度は低いのか? というと意外とそうでもなくて、Marcelはもっと複雑な手法を駆使したプロジェクションシステムを負かしてしまうこともあります(シーズンが終われば各システムがどのくらいの誤差だったかは確認でき比較できます)。
このあたりはやはりシンプルでもロジックのポイントをおさえれば的確な議論ができるということなのでしょう。世に言う80:20の法則のように、80%の精度は20%の要素で出せるけれども、これを90%にしようと思うと複雑さは2倍3倍と飛躍的に増大していく形なのかもしれません。

そんなこんなでプロジェクションとしてはとりあえずMarcelを知ることは有益で、議論としても面白いです。

しかし改めて、勉強しようと思ってもほぼ英語の情報しかないというのはハードルを感じますね。私も物凄く面白いが故に気合で読んではいますが、別に英語に強いわけではないですし。この辺考えるところもありますが、できれば徐々に紹介・議論はしていきたいと思います。
(ちなみに……Marcelの結果的な計算方法はシンプルですが、それを構築する過程での議論にはかなり難解な部分もあります。そのことを面白がって「(サルっていうけど)とんでもねぇサルだな」なんてツッコミが入ったり。そういう議論を見るのも面白いところです)

日本でもMarcelの結果(NPBについての)くらい計算して公表されてもいいと思うんですけどね。これ言っちゃうとやっぱり自分でやることになるのかな……。



スポンサーサイト

成績予測をどう扱うべきか

「セイバーメトリクス・リポート」、すでにネット上でも感想を書いて下さっている方がいらっしゃいますね。ありがとうございます。

さて、私は同書の中で日本プロ野球の(統計データに基づく)成績予測を行っています。書籍の中ではほとんど内容の説明がなかったので、今回はちょっとこれについて書いてみようかと思います。


マネー・ボールなどである程度お馴染みかもしれませんが、アメリカでは仮想のチーム編成ゲームであるファンタジー・ベースボールの隆盛も手伝って統計に基づく成績予測というものは以前から非常に活発に行われています。
色々な手法がありますが、結局のところこの成績予測の本質とはどういうものなのか。

いくらか語弊があるかもしれないことを承知で、ざっくりと本質を掴むために一言で言うと、私はセイバーメトリクスによる成績予測は「これまで打率が高かった選手はこれからも高いだろうし、本塁打が多かった選手はやっぱりこれからも多いよね」というものだと思っています。
各種の指標の過去の高低は一定のレベルで継続していく傾向がある、という統計的な法則を利用するのです。
そもそも統計というものが「過去の経験を整理して未来に活かす」という性質を持つものですから、いかに過去の情報(どのようなデータに期間的な関連性があるか、等々)をうまく整理していくかという問題になります。
本塁打を40本打った選手と5本打った選手の将来を予測するとき、前者のほうが後者より来年も多く打つだろうと考えるのは単純ですが妥当でしょう(※参考)。

もちろん実際に算出を行うにあたっては、色々と細かい補正はあります。
ただし、基本はどの予測システムでも同じではないか、と思います。
(ちなみに私が用いた成績予測の算出方法はサイトに掲載しています。2012予測にあたって改訂はしていますが)

ここまでの話では、「そんな単純なことだったらわざわざデータをこねくり回さなくたって、日常的に野球見てればわかるよ」と思われるかもしれません。
しかしここでは主観のバイアスの危険に対抗するという効用が指摘できると思います。

例えば、数値を使わずに評価を行うと印象的だった短期の成績や、記憶が鮮明なつい最近(直近のシーズン後半)の活躍度合の重要性を過大評価してしまうといった偏向があらわれがちであることが認知心理学的な知見からは知られています。
統計的にはあくまでも短期間の成績はアテにならないものであり、全体のデータから冷静に予測を行うことでそういった偏りを避けることができるというわけです。

また、場当たり的に個別の予測をしていくと、知らず知らずのうちに全体に対して楽観的な、あるいは悲観的な予測をしてしまうといった偏りも時に生じることも考えられます。
一人ひとりの予測をしていった結果、それをチーム打率として集計してみるとあり得ないほど高くなってしまう、など。
後出しでそれに気付いて無理に調整をしても、全体の傾向に対して整合的な予測をしているとは言い難いところがあります。

統計的な成績予測はこれらの偏りを避け、あくまで冷静に「過去のデータからすればこれくらい」といった結果を提示します。
個別の結果は正直なところズバズバ当たりはしないというか、結構外れます。
ただ、繰り返しになりますが、一般的な傾向に対して矛盾しない、「このくらいの成績を基準として、上にブレるかもしれないし下にブレるかもしれない」と考えるのに役立つ「基準」を提供します。
物事に対して個別的に向き合っていくと、個別事象は必ずしも全体の傾向と同じ振る舞いをするわけではないということを意識してしまいますが、全体としては「全体としてはこういう傾向がある」という傾向から逃げることは難しいのです。

現段階で私からオススメする成績予測の使用法は、ここまで説明したような意味での「基準」として用いることです。


数字的成績予測へのスタンス(byビル・ジェイムズ)

最近、サイトの更新が出来ておらず、気にして下さっている方がいたらすみません。
守備指標なんかは更新したいんですが、なかなかちょうどいいタイミングが見つけられず。
セイバーメトリクスの活動自体は、やっています。

さて、今のようなオフシーズンは、直近のシーズンの振り返りや来年のシーズンに向けての予想の話題が盛り上がる時期です。
日本ではまだあまり馴染みがないですが、米国ではセイバーメトリクスによって翌年の選手の成績を予測すること(プロジェクション)が非常に活発に行なわれております。

セイバーメトリクスの大家であるビル・ジェイムズももちろんプロジェクションを行なっている一人ですが、そのジェイムズのプロジェクションに関するスタンスがトム・タンゴのブログに紹介されていて面白かったので紹介を。

How seriously should we take the forecasting systems? (THE BOOK BLOG)

そんなんでいいのかよ、と突っ込まれてしまいそうですが、ジェイムズはプロジェクションをただ楽しむためのもので、何ら科学的な妥当性のあるものじゃない、としています。だから本来公表するようなものではないけど、受け手がその価値に応じて扱ってくれればいいだけの話ではないかと。

タンゴも「ビューティフル」と書いていますが、私としてもジェイムズのこの言い放ちっぷりは気持ちがいいものを感じます。もちろんこれは、プロジェクションシステムの開発者(ジェイムズやタンゴその他)が、根拠もなく適当に数字遊びをしているだけという意味ではありません。きちんと統計的な根拠を踏まえて筋道の通った算出をしても、不確実な未来の予測には所詮限界があるということです。だから無闇に数字を崇め奉るのではなくて、その有効性に応じて扱っておく。そういう姿勢が大切なのではないかと。

当たる当たらないというよりも「データの傾向から順当に行けばこういう成績の予測になると計算される」という事実自体をそれとしておさえておくこと(そしてそれをどう解釈し、扱うか)に意味があるのではないかと個人的には思います。

プロジェクションの手法を開発する側としては「完璧な未来予測なんて無理なんだから」ということを言い訳にせず日々精度の改善に努めるべき、というのは当然の前提としての話ですが。

 | HOME | 

プロフィール

管理者:クロスケ

野球全般好きで、プロ野球をよく見ますが特定の球団のファンではありません。
セイバーメトリクス(野球の統計的分析)の話題が多く、馴染みのない方にはわかりにくい内容があるかもしれませんがサイトに体系的にまとめています。

Baseball Concrete



RSSフィード

最近の記事

最近のコメント

カテゴリー

月別アーカイブ

上記広告は1ヶ月以上更新のないブログに表示されています。新しい記事を書くことで広告を消せます。