駄文型

プログラミングとか英語とかの話題を中心にした至極ちゃらんぽらんな日記です。

Rによるデータサイエンス 読書メモ その2

Rによるデータサイエンス データ解析の基礎から最新手法まで

Rによるデータサイエンス データ解析の基礎から最新手法まで

目次

koheikimura.hatenablog.com

の続き。

9章 クラスター分析

  • 個体や変数を分類する方法は教師ありと教師なしに大別される
  • この章では教師なしの場合

階層的クラスター分析

  • 樹形図(dendrogram)ができる
  • クラスタリング法,凝縮型階層手法とも
  • プロセス
    1. データから距離(あるいは類似度)を求める dist
    2. クラスター分析の手法を選択 hclust
    3. コーフェン行列を求める
    4. 樹形図を作成 plot
    5. 結果について検討 heatmap
  • 近い個体から順にペアにしてクラスタを作っていくようなイメージ
  • クラスタ間の距離を求める必要がある

その他

  • k平均法 kmeans
  • モデルに基づいたクラスター分析 hclass

10章 自己組織化マップ

  • わからん

11章 線形回帰分析

  • 回帰分析とは: 説明変数をから目的変数を求めることができる統計モデルをつくる
  • 線形回帰分析: 目的変数と説明変数を1次関数の関係としてモデル化
  • 非線形回帰分析: 2次関数以上
  • 線形単回帰分析 lm
    • 最小二乗法
    • 説明変数が1つ
  • 線形重回帰分析 lm
    • 単に 重回帰分析 と言った場合,線形重回帰分析を指す
    • 説明変数が複数

12章 非線形回帰分析

  • ロジスティック回帰 nls
    • ロジスティック関数 y = a / (1 + b * e^cx) を用いる
  • 多項式回帰 nls
    • 例えば3次多項式の場合 y = a + b * x + c * x^2 + d * x^3
  • 一般線形モデル glm
  • 平滑化回帰
    • わからん

13章 線形判別分析

  • 判別分析: 学習データを用いて判別モデルを構築,所属不明の個体の識別に使う
  • 線形判別分析は散布図にプロットされた個体を直線で分割するイメージ(p162 図13.1)
  • library(MASS) lda
  • 学習データとテストデータを分ける手法として 交差確認 がある
    • lda に引数 CV=TRUE を渡す
  • 線形判別分析は等分散の制約条件があることと,大量の変数には向いていないため非線形判別分析に押され気味らしい

14章 非線形判別分析

  • library(MASS)
  • 二次式による判別分析 qda 使い方は lda とほぼおなじ
  • k 最近傍法が最も多く用いられる
  • 近年では機械学習のアプローチによる判別分析が提案(15〜19章)

距離による判別分析

  • 学習データからグループの中心を求め,未知の個体は中心との距離が一番小さいグループに属すると判別
  • グループ数が3以上でも使える
  • データの確率分布かの条件もない
  • マハラノビス距離が多く用いられる mahalanobis

k 最近傍法(k最近隣法,k-NN法) knn

  • library(klaR)
  • 判別する個体の周辺 k 個の多数決でグループを決定
  • 距離の測度としては ユークリッド距離 が一般的
  • k の値は何がいいか明確な基準はなく,データに依存
  • 九工大の実証実験で使用

ベイズ判別法

  • 個体がグループに属する確率を ベイズ定理 で求め,最大のグループに属すると判別
  • 分布条件あり
  • library(klaR) NaitiveBayes

15章 ツリーモデル

  • 回帰分析,判別分析の1つ
  • 回帰木,分類木,決定木とも
  • 説明変数の値を何らかの基準で分岐させ,判別・予測のモデルを構築
  • rpart
  • ツリーのグラフ rpart.plot plot.party fancyRpartPlot
  • rpart のほかに tree , ctree パッケージもある
    • ctree は回帰木は作れない

次はこちら:

koheikimura.hatenablog.com

Rによるデータサイエンス データ解析の基礎から最新手法まで

Rによるデータサイエンス データ解析の基礎から最新手法まで