目次
はじめに
FGOアイテム効率劇場では、ユーザーの報告からFGOのアイテムのドロップ率を集計しています。クエストによっては報告された周回数の合計が小さいことがあり、このような場合にはドロップ率には上振れや下振れが発生する場合があります。そこで、周回数に対してどれくらいの不確定さが発生するのかを知るために、ドロップ率の区間推定を行います。
得られる結果としてはドロップ率に対して±何%くらいの幅がありそうかということが示され、このクエストのドロップ率は他のクエストのドロップ率より高いと言えるのか?といったことがわかります。 また、自分で周回した結果と効率劇場のデータに差があったときに、それは偶然なのか?ということについても述べています。
統計学基礎
今回の内容を理解するために必要な基礎知識について述べています。内容はかなり端折っていますので、正確な内容は参考文献を参照してください。
統計については知っているよ!という方はドロップ率の区間推定まで、数式はいらないから結果だけ見たい!という方は信頼区間はどれくらい?まで飛ばしてください。
区間推定
アイテムのドロップ率はFGOの運営によってある割合に設定されているはずで、これが我々が知りたい真の値(母平均)です。しかし、我々は(不正アクセスでもしない限り)真の値を知ることはできず、周回して集めたデータ(標本)から真の値を推定する必要があります。
標本から求めた平均(標本平均)は真の値とは異なります。しかし、サンプルサイズが大きくなれば、標本平均は母平均に近づくことが期待されます(大数の法則)。そこで、これくらいの範囲にはおそらく母平均があるだろうと推定することを区間推定といい、この区間を信頼区間と呼びます。
区間推定を行うときには、その確かさを信頼水準という数値で決める必要があります。よく使われる信頼水準は95%で、このときの信頼区間を95%信頼区間と呼びます。
正規分布
正規分布は平均を$\mu$、分散を$\sigma^2$として
$$ N(\mu, \sigma^2) = \frac{1}{\sqrt{2\pi\sigma^2}}\exp{\left(-\frac{(x-\mu)^2}{2\sigma^2}\right)} $$
という形で表される分布で、さまざまな事象の確率分布として使われています。
正規分布のグラフは下のようになります。
M. W. Toews, CC BY 2.5, via Wikimedia Commons
母平均の区間推定
正規分布$N(\mu,\sigma^2)$からサンプルサイズ$n$、標本平均$\bar{x}$の標本を取り出したとき、母平均の95%信頼区間は大体次のようになります。
$$ \bar{x} - 2 \times \sqrt{\frac{\sigma^2}{n}} \le \mu \le \bar{x} + 2 \times \sqrt{\frac{\sigma^2}{n}} $$
ここで、式の中の$\sqrt{\frac{\sigma^2}{n}}$の部分を標準誤差といいます。95%信頼区間はおよそ標本平均±2×標準誤差、99%信頼区間はおよそ標本平均±3×標準誤差です。
二項分布
結果が成功か失敗かの2通りであるような試行をベルヌーイ試行といいます。成功確率が$p$であるベルヌーイ試行を$n$回行って成功した回数の分布を二項分布$B(n, p)$といいます。
母比率の区間推定
さて、ベルヌーイ試行を$n$回行い、標本比率(成功回数/試行回数)が$\hat{p}$だったとき、$p$の真の値(母比率)を区間推定することを考えます。
$n$を増やすと、二項分布$B(n, p)$は正規分布$N(np, np(1-p))$に近づくことが知られています。
これを母平均の区間推定の式に代入して各辺を$n$で割ることで、母比率の95%信頼区間は次のようになります。
$$ \hat{p} - 2 \times \sqrt{\frac{\hat{p}(1-\hat{p})}{n}} \le p \le \hat{p} + 2 \times \sqrt{\frac{\hat{p}(1-\hat{p})}{n}} $$
ドロップ率の区間推定
ようやく本題です。クエスト周回数$N$、標本ドロップ率$\hat{P}$の標本から真のドロップ率を求めるにはどうすればよいのでしょうか。
母比率の区間推定の式にそのまま代入したくなりますが、クエストのアイテムドロップはベルヌーイ試行ではありません(一度に2個以上ドロップすることがある)。FGOの仕様を考えると、ベルヌーイ試行はエネミーに割り当てられたドロップ枠ごとにアイテムがドロップするかどうかの判定であることがわかります。つまり、クエストのドロップ枠数を$m$として、サンプルサイズは$n=mN$、標本比率は$\hat{p}=\frac{\hat{P}}{m}$となります。これを母比率の区間推定の式に代入して各辺に$m$をかけると次のようになります。
$$ \hat{P} - 2 \times \sqrt{\frac{\hat{P}}{N}\left(1-\frac{\hat{P}}{m}\right)} \le P \le \hat{P} + 2 \times \sqrt{\frac{\hat{P}}{N}\left(1-\frac{\hat{P}}{m}\right)} $$
式にドロップ枠数$m$が残ってしまいました。これを調べるのは結構骨が折れる上に修練場だと変動したりしてさらにややこしいので、ここは思い切って$\left(1-\frac{\hat{P}}{m}\right)$を$1$に近似してしまいます。信頼区間を広め(安全側)に見積もっていますし、生じる誤差は最大で10%くらいなので許してください……。
この近似の結果、ドロップ率の95%信頼区間は次のようになります。
$$ \hat{P} - 2 \times \sqrt{\frac{\hat{P}}{N}} \le P \le \hat{P} + 2 \times \sqrt{\frac{\hat{P}}{N}} $$
信頼区間はどれくらい?
それでは、実際のデータから信頼区間を見てみましょう。FGOアイテム効率劇場より、6周年後の精霊根のドロップ率を95%信頼区間付きで見てみます。
クエスト | サンプルサイズ | ドロップ率 (%) |
---|---|---|
タワー最上階 | 1027 | 13.8 ± 2.3 |
忘れられた神殿 | 1824 | 13.5 ± 1.7 |
ノリッジ | 25482 | 13.2 ± 0.5 |
聖都市街 | 14617 | 12.8 ± 0.6 |
アストライア島 | 2172 | 10.7 ± 1.4 |
タワー最上階や忘れられた神殿の方が標本のドロップ率は高いですが、信頼区間を見るとノリッジや聖都市街より本当に高いとは言い切れないことがわかります。逆に、アストライア島のドロップ率がノリッジや聖都市街より低いのは誤差ではなさそうということもわかります。
ドロップ率のZ検定
ここまでドロップ率の区間推定を行ってきましたが、この統計手法には別の使い方もあります。
FGOアイテム効率劇場はユーザーの報告からドロップ率を集計しているというのは先述の通りですが、この報告には#FGO周回カウンタというハッシュタグを付けて所定の書式でツイートすれば誰でも参加することができます。
もしあなたが周回報告をしようとして、あるアイテムのドロップ率が効率劇場と著しく異なっていたら、それは数え間違いでしょうか、それとも偶然の結果なのでしょうか?
こういったときに、ドロップ率が偶然の範囲内にあるか調べられるのがZ検定です。Z検定では、周回報告のドロップ率が効率劇場のドロップ率の信頼区間の中にあるかどうかを調べ、中にあれば偶然、外にあれば有意差がある(偶然ではない)とします。つまり、周回報告のドロップ率を$x$, 周回数を$n$, 効率劇場のドロップ率を$\mu$として、ドロップ率の差を標準誤差で割った値
$$ z = \frac{|x - \mu|}{\sqrt{\mu/n}} $$
が例えば3より大きければ、偶然には100回に1回しか起こりえないような異常な値として数え間違いを疑うべきということになります。
まとめ
統計学の手法を使うと効率劇場のデータから読み取れる情報が増えたり周回報告の検証ができるよっていう話でした。自分の考えを整理するためにもアウトプットしておきたかったんですが、書いてみると誰が読むんだこれって感じですね……。
追記 2021/11/04
思ったよりたくさんの方に読んでいただけたようで何よりです。統計で学んだ内容をゲームに適用するのが面白い、逆にゲームを通して統計の理解が深まったなど、ありがたい感想もいただきました。
ドロップ率の統計は昔から取られているので、区間推定に関してすでに検討していた方もおり、いくつか意見もいただきました。
今回の手法はある程度大きいサンプルサイズを前提としてラプラスの定理を適用し、二項分布を正規分布に近似したWald信頼区間を用いていますが、サンプルサイズが小さい ($n < 30$) 場合はラプラスの定理が適用できないので、F分布に基づくClopper-Pearson信頼区間やAgresti-Coull信頼区間を用いる必要があります。
もう1つの注意点として、枠ごとのドロップ率が小さいことを前提にしているので、2021夏イベントのような確定ドロップアイテムなどには適用できません。
こういった例外に対しては不偏分散を求めたくなるところなので、こちらの手法についても検討しようかと思っています。