Article Outline
単回帰分析とは
単回帰は教師あり学習のひとつで, 1つの説明変数から目的変数を予測する手法です.
回帰は目的変数が連続値である予測が出来た場合に用いられます.
使用するライブラリ
- pandas
数表を扱うライブラリ. - numpy
行列計算をするためのライブラリ. - scikit-learn
学習のためのモデルやデータを扱うライブラリ. - matplotlib
グラフを作成するためのライブラリ.
ライブラリの使用Flow
graph LR
id1(("pandas<br/>読み込み・統計分析<br/>(DataFrame型)")) -->|numpyのarray型へ変換| id2((numpy))
id2 -->|データの傾向を可視化| id3((matplotlib))
id2 -->|"モデルの作成・学習"| id4((scikit-learn))
[!NOTE] pandasのDataFrame型をnumpyのarray型に変換してから matplotlib や scikit-learn 等のモジュールで使用する.
分析Flow
大雑把な分析の流れです.
- pandasでデータを読み込む
- 標準化する
- pandasで相関係数を見る
- matplotlibでデータの傾向を見る
- データの分割
- scikit-learnで線形回帰モデルを作る
- 学習させる
- モデルの性能を評価する
[!NOTE] 2で説明変数と目的変数に直線的な関係がなかったり, 3で相関があまりなかった場合は線形回帰はできない.
終わりに
今回は, 単回帰分析の全体的なFlowについて書きました.
細かい解説や実装方法はまた別の記事に書こうと思います.(まだ理解してないなんていえない)