Rプログラミングの小ネタ

投稿

3月, 2015の投稿を表示しています

Rのtapply関数を使って、複数の度数分布表・ヒストグラムをまとめて出力する

- 3月 17, 2015

tapplyを使えば、データフレームのカテゴリの列でグループ分けしつつ、値の列に対して関数を適用するということができます。・・・と言っても分かりにくいと思いますので、具体的なサンプルをあげてみますと、 > # サンプルデータを作る > 名前 <- c("A", "B", "C", "D", "E", "F") > 性別 <- c("男", "男", "女", "男", "女", "女" ) > 身長 <- c(175, 165, 165, 170, 160, 155 ) > df <- data.frame(名前, 性別, 身長) > df 名前性別身長 1 A 男 175 2 B 男 165 3 C 女 165 4 D 男 170 5 E 女 160 6 F 女 155 > > # ここから本題 > tapply(df$身長, df$性別, mean) 女男 160 170 性別でグループ分けして、身長の平均を算出する（mean関数を適用）という感じです。第3引数にhist関数を指定してやれば、グループ分けを適用したあとに、複数の度数分布表を算出したり、複数の度数分布図（ヒストグラム）を書いたりすることもできます。もう少し大きいサンプルデータを使いましょう。↓この本に載っていたサンプルを使わせていただきます。 ↓こちらからダウンロードできる、"年収.csv"を使います。データマイニング入門－Rで学ぶ最新データ解析 - 東京図書 ↓こんな感じのサンプルデータです。 > d <- rea...

片側検定／両側検定の選択が恣意的な気がする件をRのt検定で確認

- 3月 09, 2015

こんな例を考えます。 10人の元々のテストの平均点は50点でした。点数をあげる施策を行った後、再度テストをしてみると、 after <- c(44, 47, 48, 51, 54, 56, 59, 62, 63, 65) という点数が得られました。施策は効果があったかどうかを、有意水準5%で検定しましょう。【Aさんの検定】 Aさんは施策に懐疑的でした。場合によっては施策の悪影響が出て、点数が下がる可能性もあると考えていますので、両側検定を行います。 > t.test(after, mu=50, alternative="two.sided") One Sample t-test data: after t = 2.1198, df = 9, p-value = 0.06306 alternative hypothesis: true mean is not equal to 50 95 percent confidence interval: 49.67088 60.12912 sample estimates: mean of x 54.9 p値が0.05よりも大きいので、帰無仮説は棄却できず、「施策は効果があるとは言えない」と結論付けました。【Bさんの検定】 Bさんは施策の効果を確信していました。点数が下がることはありえないと考えていますので、片側検定を行います。 > t.test(after, mu=50, alternative="greater") One Sample t-test data: after t = 2.1198, df = 9, p-value = 0.03153 alternative hypothesis: true mean is greater than 50 95 percent confidence interval: 50.66264 ...

Rで対応のあるデータを比較する

- 3月 06, 2015

例えば↓こんなデータがあったとします。40人のクラスがあって、1度目のテスト実施後に、なんらかの施策をして、その後、2度目のテストを実施したと。で、施策の効果は点数に表れているのか？みたいなのを想像していただけると理解しやすいかと。行名の 1, 2, ... , 40 はその学生の出席番号みたいなイメージで。 > df first second 1 56 75 2 50 59 3 53 61 4 60 62 5 45 59 6 51 60 7 48 70 8 55 79 9 50 67 10 44 50 11 50 64 12 56 49 13 42 53 14 52 53 15 57 ...

Rでエラーバー付きのプロットを行う

- 3月 06, 2015

例えば↓こんなサンプルデータがあったとしましょう。属するグループと観測値の組みたいな感じですね。 > x1 group value 1 A 2.66 2 A 2.24 3 A 2.41 4 A 1.12 5 A 2.48 6 A 2.33 7 A 2.90 8 A 4.35 9 A 3.82 10 A 3.45 11 B 6.65 12 B 4.61 13 B 5.26 14 B 5.24 15 B 7.26 16 B 5.97 17 B 2.90 18 B 2.37 19 B 4.94 20 B 4.08 21 C 5.63 22 C...