みかけR・最高R・安定Rの、実力計測精度の比較


概論:

ここでは、東風荘における「R値」のみかけの値がどのように分布しどのように変動するかを考察するとともに、「実力計測」の精度をいくつかの方法に対して検証する。



シミュレーション:

できすぎくん付属のシミュレータによって安定R1500、他家R1500、初期R1500、初期試合数400として10000000試合打たせ、みかけRの変動分布を計算した(実測値)。
その分布と、正規分布に基づく平均1500、標準偏差60の分布(理論値)を比較したものが以下のグラフである。



シミュレータの計算方式(あるいは乱数の質?)の問題で、平均値(1500)までの分布が54%程度になっており、全体的に実測値が下方にずれていたので、理論値の平均値を7下方修正した。
その誤差を除けば、グラフはほぼ一致した。
同じ実力で打ち続ける場合のみかけRは、正規分布に従って分布する。

また安定R1800、他家R1500の場合のみかけR変動が、安定R1500、他家R1500の場合のみかけR変動と同じ分布(右にR差である300だけずれた分布)になることが別のシミュレーション結果から知られている。
したがって、一般に同じ実力で打ち続ける場合のみかけRは、正規分布に従って分布し、平均は安定R・標準偏差はおよそ60である、と結論できる。

ある人のみかけRが「実力」より60程度上下することは頻繁に起こり得ることであるが、「実力」より120以上離れている確率はおよそ5%である(それでも10000試合のうち500試合程度はそういう状態になる)。
「実力」より155以上離れている確率になると1%以下になる。
ただしシミュレータによると、安定R1500の人が10000試合のうちに1500+155以上のRに一度でも到達する確率となると40%にも達している。
「たった1%」であるとはいえ、上がる場合・落ちる場合は相当に激しい変動をすることがうかがえる。
(ただし以上は全て「新キャラ」ではない400試合以上のキャラに限る。「新キャラ」であればもっと大きくみかけRがばらつくことが別のシミュレーションで確かめられている)



実力計測の精度比較(みかけRと安定Rと最高R):

「実力」なるものが一定値として存在するならば、それを測定する方法として、安定Rによる計測やみかけRによる計測、最高Rによる計測、「観戦した印象による」計測など様々な計測方法が考えられる。
印象や主観による計測は論外として、安定R・みかけR・最高R(最低R)の3つの実力計測方法の精度を比較する。

まずはみかけRと安定Rを比較しよう。
前項での結論から、みかけRからの実力計測は少なくとも標準偏差60の誤差を持つ。
同じ順位分布(1~4位25%)での安定Rの標準偏差は、σ(R)=1200×√{1.25/n}(成績の偏りの論文参照)である。
1200×√{1.25/n}<60となるnを求めると、
400<n/1.25
より、n>500である。
つまり、500試合以上の安定Rを計測すれば、みかけRを見て計測するよりも精度の高い実力計測が可能である。
また安定Rは試合数を増やすことで精度を無制限に高めることができるが、みかけRの客観的計測は連続性を持つから、複数のR値を把握することが非常に困難であり(この前も今回も1800だった、と言っても、この前の好調分がまだ残存していれば計測できない)、10000試合追っても実力の計測が難しい(たった500試合で「残存」効果が消えるとしても、20点しかプロットできないが、同じ試合数の安定Rで計測すれば実力からのずれの標準偏差はわずか13.4まで減少する)。


次に、最高R・最低Rと安定Rはどうだろうか。

下のグラフは、実力1500の人が10000試合、5000試合打った場合の最高R値をプロットしたもので、各々理論値は標準偏差26、30で平均がそろうように取った正規分布である。



意外なことは、標準偏差としては比較的小さな値となっていることである。
もちろん安定Rの標準偏差13.4、19.0と比べると各々2倍程度のばらつきがあるが、思っていたよりは優秀であった(笑)。
ただ、最高Rになると標準偏差がばらつくだけでなく、上昇度合いの平均値も試合数に依存して変動するため、「実力」がどこかを推定することがさらに困難になる。
開始点のRに強く依存することも大きなデメリットである。
実力計測のために比較を行うのだから、「開始点=実力」に取って開始することができない。
開始点のみかけRのばらつきや、その後一度「実力」にみかけRが到達するまでの試合数のばらつきなどの様々の外乱を内包するような形になる。
特に1000試合以下のような少ない試合数での比較にはこれらの影響が強く、適さないだろう。
それに対して安定R計測は、開始点のRに一切影響を受けない。

以上から、次のように言える。
実力計測の手法として、最高RやみかけRによる計測より、安定Rによる計測の方が精度が高い(2倍以上)。



Rシステムの改善手法:

もしもみかけRに「実力計測」にふさわしい精度を与えたいならば、変動式を変更する必要がある。
現在の変動式は順位をtとして
R変化=10-4t+(他家R-自分R)÷300
のように近似されるが、この変化自体を1/4にすれば、みかけRの標準偏差はたぶん1/2(これは直感 笑)つまり30程度まで抑えることができ、これは2000試合分の安定Rに等しくなる。
さらに、このうち他家R補正部分はそのままに、10-4tの部分だけを減少させると、さらにばらつきが減る。
現行のR変動だと、実力2000の人が1850を切ったりすることも時々起きてしまうが、変動分を小さくすれば2000の人は絶不調でも1900までは落ちないくらいにはすることができる。
また実力1950しかないのに、まぐれで高いR(2100など)に到達することはほぼ不可能になる。
400試合で変動幅最小にするのではなく、2000試合程度までかけてゆっくり変動幅を下げていけば、違和感もない(個人的には現行の、初期段階の変動の激しさは問題だと思うが)。
せっかく実力の指標があるのに、それが単に麻雀のギャンブル性をそのまま反映しただけの指標であっては悲しい。
ただでさえ偶然性の高いゲームなのだから、実力計測の指標はなるべく客観的で精度の高いものを採用すべきように思う。