駄文型

プログラミングとか英語とかの話題を中心にした至極ちゃらんぽらんな日記です。

Rによるデータサイエンス 読書メモ その1

[asin:462709602X:detail]

目次

第I部 Rとデータマイニングの基礎

構文や基本的な関数など,基本のおさらい。統計の用語も軽く説明がある。Rを使ったことがあるが体系的に勉強してない or Rを久しぶりに使う など再入門にちょうどいい。初心者向けではない。

1章 データマイニングR言語

  • オブジェクト、関数、制御文、RStudio、パッケージ

2章 データの入出力と編集

  • ベクトル、行列、データフレーム、配列、リスト
  • 入力 read.csv, scan
  • 出力 write, write.table, sink
  • 結合 rbind, cbind
  • 並び替え sort, rev, sort.list
  • よく使う関数一覧 p28
  • データの尺度
    • 量的データ: 間隔尺度、比例尺度
    • 質的データ: 名目尺度、順序尺度
  • summary

3章 データの演算と固有値,基本統計量

4章 データの可視化

  • 棒グラフ,円グラフ,ヒストグラム,折れ線グラフ,箱ひげ図,散布図
  • 作図環境とグラフの利用
    • ここは無視してRStudio使った方がいいと思う

第II部 Rによるデータ解析・データマイニング

ここからが本題。

5章 主成分分析

  • 多変数データを少ない変数に縮約する
  • princomp

6章 因子分析

  • 変数間の相関関係から共通因子を求める
  • 例: 教科(算数,理科,国語など)別の成績データから2つの因子(理系,文系)にまとめる
  • factanal シンプルだがカスタマイズ性が低い,最尤法のみ
  • psych パッケージ fa 因子の推定法を指定可能
  • 因子の推定方法や回転方法によって結果が変わることがある
    • 探索的に方法を変えて結果を見る必要がある

7章 対応分析

  • わからん

8章 多次元尺度法

  • MDS: Multi-Dimensional Scaling
  • データの個体間の類似度or距離を2〜3次元に射影
  • データの構造やパターンを考察可能
  • パッケージ stats 関数 dist, cmdscale

次はこちら:

koheikimura.hatenablog.com