Q-Qプロット

出典: フリー百科事典『ウィキペディア(Wikipedia)』

出典: フリー百科事典『ウィキペディア(Wikipedia)』
ランダムに生成された独立な標準指数分布データ(X ~ Exp(1))のQ–Qプロット。このQ–Qプロットは、垂直軸のデータを水平軸の母集団と比較します。このデータは非線形の関係を強く示し、データが標準正規分布(X ~ N(0,1))に従っていないことを示唆している。線と点の間のオフセットは、データの平均が0ではないことを示唆し、中央値は0.7に近いと判断することができる。
垂直軸上のランダムに生成された独立した標準正規分布のデータを、水平軸上の標準正規分布のデータと比較するQ–Qプロット。 データの線形性は、データが正規分布に従っていることを示唆している。
ワイブル分布のQ–Qプロット。赤点は分布の十分位数。 3つの外れ値が、データの高い部分に存在することがで明らかである。その他のデータはWeibull(1,2)のモデルに良く適合している。
3月と7月のオハイオ州の25ヶ所における標準化された最高気温の分布を比較するQ–Qプロット。湾曲したパターンは、中央の分位数が3月よりも7月により狭く、7月の分布は3月の分布に比べて左に歪んでいることを示唆している。データは1893年から2001年の期間。

Q–Qプロット: Q–Q plot, quantile-quantile plot)は、2つの確率分布を互いに対してプロットすることによって比較する統計学のグラフィカルな方法である。まず、分位数の区間の集合が選択される。 プロット上の点 (x, y) は、第1の分布の同じ分位数(x座標)に対してプロットされた第2の分布の分位数の1つ(y座標)に対応する。従って、線は、パラメータを有するパラメトリック曲線であり、このパラメトリック曲線は、分位点をつないだものである。

比較される2つの分布が類似している場合、Q–Qプロット内の点は線y = x付近に位置する。分布が線形関係にある場合、Q–Qプロット内の点はほぼ直線上に分布するが、必ずしも直線 y = x 上にあるとは限らない。Q–Qプロットは、局所的な分布の種類の推定に使用できる。

Q–Qプロットを使用して分布の形状を比較し、位置、縮尺、歪度などの特性が2つの分布でどのように類似しているか異なるかを判定する。Q–Qプロットは、データの集合または理論的分布を比較するために使用できる。2つのデータを比較するためにQ–Qプロットを使用することは、それらの基礎となる分布を比較するためのノンパラメトリックアプローチと見ることができる[1][2]。 Q–Qプロットは、一般的に、2つのサンプルのヒストグラムを比較する一般的な手法よりも強力なアプローチであるが、図から解釈するためにより多くのスキルを必要とする。Q–Qプロットは、データセットを理論・モデルと比較するために使用される。これは、数値的要約だけでなく、「適合度」の評価をグラフィカルに行うことができる。また、Q–Qプロットは、2つの理論的分布を互比較するためにも使用される[3]。Q–Qプロットは分布を比較するので、散布図のように値を対として観察する必要はなく、比較される2つのグループの値の数を等しくする必要はない。

P–Pプロット[編集]

「確率プロット(probability plot)」という用語は、Q–Qプロット、場合によってはより一般的なプロット、時にはあまり一般的でないP–Pプロット英語版: P–P plot, probability-probability plot)を指す場合もある。確率プロット相関係数プロット(PPCCプロット)は、Q–Qプロットの概念から導出された量であり、観測データとの適合度を測定し、時にはデータ分布をフィッティングする手段として使用される。

定義と構成[編集]

ワシントン州国道20号線の開通日/閉鎖日のQ–Qプロット、正規分布との比較。 外れ値が右上隅に示されている[4]

Q–Qプロットは、2つの分布の分位点のプロット、または分位点の推定に基づくプロットである。プロット内の点のパターンは、2つの分布を比較するために使用される。

Q–Qプロットを構成する主なステップは、プロットする分位数を計算/推定することである[5]。Q–Qプロットの軸の一方または両方が、連続累積分布関数(CDF)を伴う理論的分布に基づく場合、すべての分位点は一意に定義され、連続累積分布関数を反転する(逆関数を求める)ことで得られる。不連続な連続累積分布関数を伴う理論的確率分布が比較される2つの分布のうちの1つである場合、分位数が定義されない場合もあるため、補間された分位点をプロットするなどで対応する。Q–Qプロットがデータに基づいている場合、複数の分位数推定が使用されている。分位数を推定または補間しなければならないときにQ–Qプロットを形成するための規則はplotting positions(後述)と呼ばれる。

最も単純なケースは、全く同じサイズのデータセットが2つある場合である。この場合、Q–Qプロットを作成するために、各データを昇順に並べ、対応する値をプロットする。異なるサイズの2つのデータセットが比較される場合が少し複雑となる。この場合にQ–Qプロットを構成するには、対応する分位数を構成できるよう、補間された分位数推定値を使用する必要がある。

より抽象的には[3] 、関連する分位関数 F−1 と G−1(累積分布関数の逆関数が分位関数である)を有する2つの累積確率分布関数FおよびGが与えられると、Q–Qプロットは、qの値の範囲について、Gのq番目の分位に対してFのq番目の分位に線を引くことになる。したがって、Q–Qプロットは、[0,1]上に実平面R2内の値でインデックス付けされたパラメトリック曲線である。

解釈[編集]

Q–Qプロットにプロットされた点は、左から右に見ると常に非減少(単調増加)となる。比較される2つの分布が同一である場合、Q–Qプロットは45°の線y = xに従う。分布の1つの値を線形変換した後に2つの分布が一致した場合、Q–Qプロットはある直線をたどるが、その直線はy = xとは限らない。Q–Qプロットの傾きが線y = xよりもなだらかである場合、横軸にプロットされた分布は、縦軸にプロットされた分布よりも分散が大きい分布である。逆にQ–Qプロットの傾きがy = xよりも急であれば、縦軸にプロットされた分布は横軸にプロットされた分布よりも分散が大きい分布である。Q–Qプロットはしばしば円弧状であり、分布の一方が他方よりも歪んでいること、または分布の一方が他方より重いテールを有することを示す「S」字形となる。

Q–Qプロットは分位数に基づく手法であるが、標準Q–Qプロットでは、Q–Qプロット内のどの点が所定の分位数であるかを判断することはできまない。例えば、Q–Qプロットのみからでは、2つの分布のいずれかの中央値を決定することは不可能である。これを可能にする工夫がなされているQ–Qプロットも存在する。

分位数の線形回帰の切片および傾きは、標本の相対的な位置および相対的なスケールの尺度を与える。横軸にプロットされた分布の中央値が0である場合、回帰直線の切片が位置に対応し、勾配はスケールに対応する。中央値間の距離は、Q–Qプロットに反映される相対的位置の別の尺度である。「確率プロット相関係数」(PPCCプロット)は、標本分位数間の相関係数である。相関係数が1に近ければ近いほど、分布はシフトされ、互いに線形変換された分布に近づく。単一の形状パラメータを有する分布の場合、確率プロット相関係数プロットは、形状パラメータを推定する方法となる。形状パラメータの異なる値に対する相関係数を単純に計算し、異なるタイプの分布を比較しているかのように、最良の適合を有するものを単に使用する。

Q–Qプロットの別の一般的な使用法は、正規確率プロットのように、標準正規分布N(0,1)のような理論分布との比較である。2つのデータサンプル・順序統計量を比較する場合と同様に、データを並び替え、理論分布の特定の分位点に対してプロットする[2]

プロットする位置[編集]

理論分布からの分位数の選択は、状況と目的に依存しうる。例えば、サイズnのサンプルが与えられたとき、サンプリング分布が実現する分位数であるので、k = 1、...、nに対してk / nを用いる。最後のn / nは100パーセンタイル(理論分布の最大値)に対応する。これは無限大になりうる。他にも、k /(n + 1)や、(k-0.5)/ nを用いて均等に配置するなどの手法が存在する[6]

理論的もしくは経験的な文脈を持つ理論またはシミュレーションに基づいて、多くの手法が提案されている。以下でこれらについて説明する。より詳しい問題は、ドイツのタンク問題として知られる「サンプルの最大値プラスギャップ」の解が存在する最大値(母集団の最大値の推定値)の選択である。最も単純にはm + m / n-1となる。 この間隔の均等化は、パラメータの最大間隔推定において生じる。

一様分布の順序統計量の期待値[編集]

 k / (n + 1) を用いる手法は、(n+1)個のランダムに描かれた値の最後が最初のn個のランダムに描かれた値のk番目に小さい値を超えない確率に従って点をプロットする方法に等しい[7][8]

標準正規分布の順序統計量の期待値[編集]

正規確率プロットを使用する際には、標準正規分布の順序統計量の期待値の尺度であるランキットを使用する。

より一般的には、シャピロ–ウィルク検定は、与えられた分布の順序統計量の期待値を用いる。 得られたプロットと回帰直線は、(フィッティングされた直線の切片と勾配から)位置とスケールの一般化された最小二乗推定値を生成する[9]。これは正規分布には(位置とスケールはそれぞれ平均と標準偏差によって推定されるため)あまり重要ではありませんが、他の多くの分布にも役立つ。

しかし、これは、順序統計量の期待値を計算する必要があり、分布が正規分布でない場合には困難な場合がある。

順序統計量の中央値[編集]

そのかわりに、一次分布の順序統計量の中央値の推定値および分布の分位関数に基づいて計算することができる順序統計量の中央値の推定値を使用してもよい(Filliben 1975)。

これは、分位関数を計算することができる任意の分布に対して容易に生成できるが、逆に結果として得られる位置およびスケールの推定値は正確には最小二乗推定値ではなくなる。

ヒューリスティック[編集]

比較分布の分位数については、式k /(n + 1)が広く使用されている。様々な異なる式が、アフィン対称プロット位置として使用または提案されている。そのような公式は、k /(n + 1)と(k-1)との間の範囲を与える、0から1/2の範囲内のある値について、(k-a)/(n + / 2)/ nとなる。

用いられる数式には以下のようなものがある

  • (k − 0.3) / (n + 0.4)[10]
  • (k − 0.3175) / (n + 0.365)[11]
  • (k − 0.326) / (n + 0.348)[12]
  • (k − ⅓) / (n + ⅓)[13]
  • (k − 0.375) / (n + 0.25)[14]
  • (k − 0.4) / (n + 0.2)[15]
  • (k − 0.44) / (n + 0.12)[16]
  • (k − 0.5) / (n)[17]
  • (k − 0.567) / (n − 0.134)[18]
  • (k − 1) / (n − 1)[19]

nが大きい場合、これらの手法の結果はほとんど一致する。

Fillibenの推定[編集]

順序統計中央値は、その分布の順序統計の中央値である。これらは、次のようにして連続一様分布についての分位関数および順序統計中央値の観点から表すことができる。

ここで U(i) は一様な順序統計中央値であり、Gは所望の分布についての分位関数である。分位関数は、累積分布関数の逆数(Xがある値以下である確率)である。すなわち、確率を仮定すると、累積分布関数の対応する分位数が必要となる

James J. Filliben は次の式を一様順序統計中央値を推定するために用いた。

この推定が非直感的な形をしている理由は、統計中央値は単純な形をしていないためである。

関連項目[編集]

  • プロビット チェスター・イトナー・ブリスが1934年に提案した関数

参考文献[編集]

  1. ^ Gnanadesikan (1977) p. 199.
  2. ^ a b (Thode 2002, Section 2.2.2, Quantile-Quantile Plots, p. 21)
  3. ^ a b (Gibbons & Chakraborti 2003, p. 144)
  4. ^ SR 20 – North Cascades Highway – Opening and Closing History”. North Cascades Passes. Washington State Department of Transportation (2009年10月). 2009年2月8日閲覧。
  5. ^ Wilk, M.B.; Gnanadesikan, R. (1968), “Probability plotting methods for the analysis of data”, Biometrika (Biometrika Trust) 55 (1): 1–17, doi:10.1093/biomet/55.1.1, JSTOR 2334448, PMID 5661047, http://jstor.org/stable/2334448. 
  6. ^ Weibull, Waloddi (1939), “The Statistical Theory of the Strength of Materials”, IVA Handlingar, Royal Swedish Academy of Engineering Sciences (No. 151) 
  7. ^ Madsen, H.O. (1986), Methods of Structural Safety 
  8. ^ Makkonen, L. (2008), “Bringing closure to the plotting position controversy”, Communications in Statistics - Theory and Methods (37): 460–467 
  9. ^ Testing for Normality, by Henry C. Thode, CRC Press, 2002, ISBN 978-0-8247-9613-6, p. 31
  10. ^ [[#CITEREFBenardBos-Levenbach1953._The_plotting_of_observations_on_probability_paper._Statistica_Neederlandica,_7:_163-173._doi:doi:10.1111/j.1467-9574.1953.tb00821.x|,_in_Dutch|Benard & Bos-Levenbach (1953. The plotting of observations on probability paper. Statistica Neederlandica, 7: 163-173. doi:10.1111/j.1467-9574.1953.tb00821.x, in Dutch)]].
  11. ^ Engineering Statistics Handbook: Normal Probability Plot – Note that this also uses a different expression for the first & last points. [1] cites the original work by ([[#CITEREF|]]). This expression is an estimate of the medians of U(k).
  12. ^ Distribution free plotting position, Yu & Huang
  13. ^ A simple (and easy to remember) formula for plotting positions; used in BMDP statistical package.
  14. ^ This is ([[#CITEREF|]])’s earlier approximation and is the expression used in MINITAB.
  15. ^ Cunane (1978).
  16. ^ This plotting position was used by Irving I. Gringorten (Gringorten (1963)) to plot points in tests for the Gumbel distribution.
  17. ^ Hazen, Allen (1914), “Storage to be provided in the impounding reservoirs for municipal water supply”, Transactions of the American Society of Civil Engineers (No. 77): 1547–1550 
  18. ^ Larsen, Currant & Hunt (1980).
  19. ^ Used by Filliben (1975), these plotting points are equal to the modes of U(k).