Rによるデータサイエンス 読書メモ その1
目次
第I部 Rとデータマイニングの基礎
構文や基本的な関数など,基本のおさらい。統計の用語も軽く説明がある。Rを使ったことがあるが体系的に勉強してない or Rを久しぶりに使う など再入門にちょうどいい。初心者向けではない。
1章 データマイニングとR言語
- オブジェクト、関数、制御文、RStudio、パッケージ
2章 データの入出力と編集
- ベクトル、行列、データフレーム、配列、リスト
- 入力
read.csv
,scan
- 出力
write
,write.table
,sink
- 結合
rbind
,cbind
- 並び替え
sort
,rev
,sort.list
- よく使う関数一覧 p28
- データの尺度
- 量的データ: 間隔尺度、比例尺度
- 質的データ: 名目尺度、順序尺度
summary
3章 データの演算と固有値,基本統計量
- 算術演算,比較演算,論理演算,行列の演算
- 行列の内積
%*%
- 逆行列
solve
- 固有値,特異値分解
- 基本統計量関数 p37
- 行・列ごとに統計量をとる
apply
- 相関係数行列
cor
- 分散共分散行列
var
,cov
4章 データの可視化
- 棒グラフ,円グラフ,ヒストグラム,折れ線グラフ,箱ひげ図,散布図
- 作図環境とグラフの利用
- ここは無視してRStudio使った方がいいと思う
第II部 Rによるデータ解析・データマイニング
ここからが本題。
5章 主成分分析
- 多変数データを少ない変数に縮約する
princomp
6章 因子分析
- 変数間の相関関係から共通因子を求める
- 例: 教科(算数,理科,国語など)別の成績データから2つの因子(理系,文系)にまとめる
factanal
シンプルだがカスタマイズ性が低い,最尤法のみpsych
パッケージfa
因子の推定法を指定可能- 因子の推定方法や回転方法によって結果が変わることがある
- 探索的に方法を変えて結果を見る必要がある
7章 対応分析
- わからん
8章 多次元尺度法
- MDS: Multi-Dimensional Scaling
- データの個体間の類似度or距離を2〜3次元に射影
- データの構造やパターンを考察可能
- パッケージ
stats
関数dist
,cmdscale
次はこちら: