データのヒストグラムを描画した後、理論分布と比較したい場合について考えてみます。
#================== 準備このヒストグラムには理論分布を重ね書きできません。ヒストグラムの縦軸を見てみてください。 それぞれの階級に含まれるサンプル数(Frequency)が縦軸になっています。全面積は総頻度になります。 しかし、理論分布は全面積が全確率1になるように定められています。そこで、 ヒストグラムの全面積が全確率が1になるようにオプションを付け直して描画しましょう。 縦軸は確率密度(Density)になります。
#================== 解1
#================== 解2 分布にパラメータがある場合
このときには、密度関数にパラメータを指定する必要があります。
3行目のように、x を確率変数の変数名として関数の表現を記述するとその密度関数を描画してくれます。
x <- rnorm(1000, mean=3, sd=2 ) # 見本として平均3標準偏差2の正規乱数データを生成しました。
hist(x,prob=T) # 面積が頻度でなく、確率になるように描画
curve(dnorm(x,mean=3,sd=2),from=-3, to=10, add=T) # 密度関数を(-3,10)の区間描画する
#================== 解3 curveという不思議な関数を使わないで自分で描画する場合。
すでに描画されている図の上に(折れ)線を追記したい場合には、lines(xx,yy)という関数を使います。
xxとyyは同じ長さの座標列をもつベクトルを与えます。
x <- rnorm(1000, mean=3, sd=2 ) # 正規乱数データを生成しました。
hist(x,prob=T) # 面積が頻度でなく、確率になるように描画
xx <- seq(-3,10,0.01) # -3から10までの0.01刻みの数列をxxとします。
lines(xx,dnorm(xx,mean=3,sd=2)) # 密度関数を(-3,10)の区間描画する
図が見やすくなるように、線の太さや色などを変えたい場合には、 それぞれの描画関数のオンラインマニュアルをまずは見てみてください。また、 一般的な作図領域の設定パラメータとしては、par()という関数を参照してみてください。