機械学習

機械学習しようぜ! part4 家の価格を予測編 ①

こんにちは、チズチズです!

何だかんだ言って僕はまだ

機械学習入門したての初心者だあああああ

ということで、ネットの記事を漁りまくっています。

今日は何するのかというと

Kaggle

Kaggleってなんだ?

Kaggleは企業や研究者がデータを投稿し、世界中の統計家やデータ分析家がその最適モデルを競い合う、予測モデリング及び分析手法関連プラットフォーム及びその運営会社である。by ウィキペディア

何の予測だね?

https://www.kaggle.com/c/house-prices-advanced-regression-techniques

詳しくはこちらから(Kaglle

上のサイト見ればわかりますが、大まかに流れを説明。

79個の説明変数から、家の価格を予測して下さい。

さっぱり過ぎていい感じ

79個とか多いですよね~

早速コード書いてみるか

データ読み込み

今日はJupyterNotebookで挑みます

色々読み込んだ

よし完璧

データを観察

文字列入ってるんで一旦数値化

セールスプライス(目的変数)の外れ値があったら削除します。

これで安全に外れ値を除去できました。

相関係数

さすがに79個全部で予測するわけには行かないので相関係数が高いものを調べます。

これを見る限り、「OverallQual」と「GrLivArea」の相関係数が高かったです。

次はまた外れ値を削除します。

右上にわかりやすい外れ値がありますね。

削除するぞおおお

まず、その2つの場所を探すぜ

はい。1182と691でした。

削除します。

よしよし。確認しよう。

完璧だ~

モデル作るか

目的変数と説明変数はこうします。

モデルでけた

テストデータで予測させて提出

ふー 疲れた

色んな人のコード見ながら書いたけど結構難しい…

結果

スコアは0.84342で順位が4612/4729

ちょw

駄目じゃんこれw

また次回頑張ります。

COMMENT

メールアドレスが公開されることはありません。 * が付いている欄は必須項目です