統計の復習と覚書

×

[PR]上記の広告は3ヶ月以上新規記事投稿のないブログに表示されています。新しい記事を書く事で広告が消えます。

# 青木先生のページに大変有用なものがありました。感謝。自分用に表2をコピペ
# http://aoki2.si.gunma-u.ac.jp/lecture/Kentei/nonpara.html

検定目的	パラメトリック	ノンパラメトリック
		名義尺度	順序尺度以上
適合度		χ2検定	χ2検定
			1標本コルモゴロフ・スミルノフ検定
独立性	相関係数の検定	χ2検定	χ2検定
		フイッシャーの正確確率検定	フイッシャーの正確確率検定
比率の差		χ2検定	χ2検定
		フイッシャーの正確確率検定	フイッシャーの正確確率検定
		マクネマー検定	マクネマー検定
		コクランのQ検定	コクランのQ検定
母比率		二項検定	二項検定
対応のない2標本の代表値の差	平均値の差のt検定		マン・ホイットニーのU検定
			2標本コルモゴロフ・スミルノフ検定
			ファン・デル・ワーデン検定
			中央値検定
対応のある2標本の代表値の差	平均値の差のt検定		符号検定
			符号付順位和検定
対応のないK標本の代表値の差	一元配置分散分析		クラスカル・ウォリス検定
			中央値検定
対応のあるK標本の代表値の差	乱塊法		フリードマンの検定

# 表の編集がうまくいかない

# 他参考
# http://lbm.ab.a.u-tokyo.ac.jp/~omori/kensyu/nonpara.htm　より
# 符号検定（sign test）
# Wilcoxon の符号順位和検定（signed rank sum test）
# 連検定（run test）
# Mann-Whitney の U 検定
# 順位和検定（rank-sum test）
# Kolmogorov-Smirnov の 2 標本検定

http://www.med.nagoya-u.ac.jp/spss/files/jissen4.pdf より
# 独立2 標本（パラメトリックはｔ検定）
## Mann-Whitney U test（マン・ホイットニー検定）
## Wilcoxon- Mann-Whitney test
ウィルコクソンの順位和検定
# 関連2 標本（パラメトリックはpairedｔ検定）
## Wilcoxon (matched-pairs) signed-ranks test
## Wilcoxon test
## ウィルコクソンの符号付順位和検定
# 独立多標本（パラメトリックは一元配置分散分析）
## Kruskal-Wallis test（クラスカル･ウォリス検定）
# 関連多標本（パラメトリックは二元配置分散分析）
## Friedman test （フリードマン検定）

PR

# 最近はあんまりRをいじれない
# 気になること、勉強する予定をメモしておく

# RjpwikiのトップにDeducerなるものがコメントされていた。全く知らなかった
# 本家: http://ifellows.ucsd.edu/pmwiki/pmwiki.php
# インストールで少々躓いた。本家のインストールマニュアルに従う (http://ifellows.ucsd.edu/pmwiki/pmwiki.php?n=Main.WindowsInstallation) 。
    # 1. まずJGRなるものをインストールしておく。http://rforge.net/JGR/files/　からjgr.exeをダウンロードしてダブルクリック。OK連打
   # 2. インストールがすんだら、このjgr.exeがJGRを動かすためのランチャーになっているのでダブルクリックする。
   # 3. JGR内でDeducerをインストールする。メニューのPackage $ Data -> Package Installerから
   # 4. その上でJGR内でlibrary(Deducer) とする
   # 5. そもそもJGRの使い方がよく分からない。大体データの読み込みがわからない。組み込みデータセットを使うにはどうするんだろう。
   # 6. 説明がMacユーザー向けばかりなので複雑な気持ちになる。　<- 今ココ

# iPlot。マウスでカチカチやりながらRのグラフをいじるパッケージ。かなり便利そうに見える
# http://rosuda.org/iplots/

# 多変量解析。もっと勉強しよう。特にクラスター分析

# ノンパラ。基本から勉強しよう

# カテゴリカルデータの解析。

# 心理統計学の基礎から
dat <- read.delim("http://blog.cnobi.jp/v1/blog/user/89d80905c7038b4121822249e9062fba/1258223909")

library(psych)
dcrp <- describe.by(dat$envy, dat$dominance.e)
print(dcrp, digits=3)

value <- dat$envy
dmn <- dat$dominance.e

gmean <- mean(value)
fmean <- tapply(value, list(dmn), mean)
a <- nlevels(dmn)
lvs <- levels(dmn)
na1 <- sum(dmn==lvs[1]); na2<- sum(dmn==lvs[2]); na3<- sum(dmn==lvs[3])
n <- length(value)

sst <- sum((value-gmean)^2) # 全体平方和

ssa <- (na1*(fmean[1]-gmean)^2)+(na2*(fmean[2]-gmean)^2)+(na3*(fmean[3]-gmean)^2) # 群間平方和。各水準の個々のデータの予測値を各水準の平均値としpy1-gmean, py2-gmean...の総和を水準ごとに出して足す。sum(15*(fmean-gmean)^2) でも同じ。級間平方和ともいう

sse <- var(value[dmn==lvs[1]])*(14/15)*15+var(value[dmn==lvs[2]])*(14/15)*15+var(value[dmn==lvs[3]])*(14/15)*15 # 群内平方和。各水準の"標本"分散から平均の情報を外し (*15=平方和にし) 、総和する。級内平方和ともいう

ssa+sse # sst
sst

summary(aov(value~dmn))
sst
ssa # namesが残っているが気にしない
sse

# 相関比
sqrt(ssa/sst)

処理対比 (treatment contrast)
> contr.treatment(3)
2 3
1 0 0
2 1 0
3 0 1

SASっぽい対比
> contr.SAS(3)
1 2
1 1 0
2 0 1
3 0 0

零和対比 (zero sum contrast)
> contr.sum(3)
[,1] [,2]
1    1    0
2    0    1
3   -1   -1

ヘルマート対比 (helmert contrasts)
> contr.helmert(3)
[,1] [,2]
1   -1   -1
2    1   -1
3    0    2

多項式対比 (polynomial contrast)
> contr.poly(3)
            .L     .Q
[1,] -7.07e-01 0.408
[2,] -9.07e-17 -0.816
[3,] 7.07e-01 0.408

# 現在の対比係数を調べる
> options()$contrasts
        unordered           ordered
"contr.treatment"      "contr.poly"

# 対比係数を変える
options(contrasts = c("contr.sum", "contr.sum"))

帰無分布で有意になる数値が対立仮説の分布で得られる確率を検定力という
帰無分布とはH = 0とする普通の検定 (フィッシャー式) で使われる分布
対立分布とは (そんな呼び方はないかもしれないが) 対立仮説としてH = 5くらいを考えたとしたら母集団の数値が5のサンプリング分布。通常、実際に実験や調査を行って算出した標本の平均値やら相関やらを用いる

検定力が低いとは、結局サンプルサイズが小さいか分散が大きくてサンプリング分布の標準誤差が小さい、つまり母数の推定精度が低いということ。ゆえに、標本の数値が帰無仮説を棄却しても、対立仮説の分布上ではそれより小さい (有意にならない) 数値が出てくる、すなわち第2種の過誤を犯す可能性が高いということ。

検定力を上げるとはサンプリング分布の標準誤差を小さくして、幅を狭くする。そうするともう一回サンプリングして棄却域より小さい数値が得られる確率は小さくなる。
サンプリング分布の標準誤差は大体分母にサンプルサイズを入れるので、サンプルサイズを大きくすれば検定力は高くなる。

なお、原理的には例えば平均値なら標準偏差を小さくすれば標準誤差 (分子だから) も小さいので検定力は高いし、また群Aと群Bの差が大きければ分布の幅が広くても対立分布で棄却域より小さい値が得られる確率は小さくなる。

検定力分析の使用法

実験・調査で得られた数値を母数とするサンプリング分布で、棄却域より大きい数値が得られる確率 (第2種の過誤を犯さない確率) を調べる。高いと検定力が高いということ
実験・調査をやる前に、母集団の平均値とかの差はこのくらいにだろうと予想する。サンプリングの数値にはばらつきがあるので、きちんと想定した母集団の数値が得られるサンプルサイズを決める。ぶっちゃけていえば、サンプリング分布の幅を小さくして有意になる (帰無仮説を棄却し、かつ対立仮説の面積を占める) サンプルサイズを決める (いつも思うんだけど、最初から平均値差とか相関を予測しろって、先行研究とか予備調査から調べておけってことか？仮にそうしたとしても、そんなに簡単に調査の結果なんか予測できないだろう。みんなできるの？)

myscratchpad

[PR]