機械学習

練習コンペを自力で最速(多分)で解く【MLC#17】

こんにちは、チズチズです!

久しぶりですが、早速機械学習をやります。

今回は、自力で解きます。

目的

  • 今までやった方法を色々試して、精度の高いモデルを作りたい。
  • スキルを上げたい

これから解くコンペ(練習用)は…

【練習問題】自動車の走行距離予測

SIGNATEの自動車の走行距離予測です。

1回目の提出は簡易的な予測で、ササッと終わらせます。

まだまだ2回目もやるので宜しくおねがいします。

大まかに説明

車の性能から燃費を予測しろってことですね(要約

9番目のカラムは車名なのでダミー変数にしなきゃいけませんね…

手順

始めはまずめっちゃササッと解きます。

お手軽重回帰分析なのでw

  1. データ読み込み
  2. 相関係数
  3. ②を元に重回帰分析に突っ込む
  4. 提出

以上!

コード書くよ

①データ読み込み

トレインとテストtsvらしいです。

tsvファイルでも挫けるな!

pd.read_csv(“ファイル名.tsv”, sep=”\t”)

でちゃんと読み込める!!!

データ量少ないです(切実

今はササッと放置するけれどこんだけデータ量少ないのなら1個1個良く見たほうが良さそう

目的変数を取り出します。

適当にグラフ見てみます。

まぁ… ひどい外れ値は無いのでスルーしますw

車名はobject型なので、数値にします。

相関係数

全体的に高いので、相関係数0.5以上のものを取っていきます。(絶対値

モデル作り

テストデータとトレインデータで使うものだけ抽出してから線形回帰に突っ込みます。

提出まで

1番ここに時間かかりましたw

提出のcsvファイルは1列目がtestデータのid、2列目に予測値を入れるだけですがheaderとindexをNoneにするの忘れて色々手こずりました。

列追加して予測値入れれば後は出力で完成です。

僕のデータは90人中63位でした。

次やること

まず、多項式回帰でもやってみます。

あとL1,L2正則化を使ってみようと思います。

お読みいただいてありがとうございました

 

なんでも良いからコメント欲しい(切実

良い分析方法でも感想でも暇だったら書いてってね…

COMMENT

メールアドレスが公開されることはありません。 * が付いている欄は必須項目です