前回までの記事で、説明変数としていくつかのパラメータの追加のコードを紹介させていただきました。今回は追加したパラーメータを使ってで改めてモデル作成を検討した結果について紹介します。コードは以前の「機械学習による(中古)不動産価格の予測 その4」に紹介したものとほぼ同様ですので、詳細な説明は省きます。
必要なライブラリーをインポートするとともに、新たに前処理したデータ「Fudosan2005-2021_reanalysis_F」を読み込んでいます。
説明変数として、今回は新たに「構造単価」、「道路方位分類」などを加えています。
データの前処理、学習、評価値の設定、optunaによるハイパーパラメーターの検討については以前の記事とほぼ同様です。
実際に新たに追加したパラーメータで作成したモデルの結果(ハイパーパラメーター最適化後)は以下のとおりでした。R2値が0.2991と前回よりも随分と下がってしまいました。あまり重要度が高くないパラメータを敢えて追加してしまったのが原因か、あるいはパラメータの数値化の指標に問題があったのかもしれません。
そのため、重要度の低そうなパラメータをいくつか省いたもの(以下の説明変数)で再度モデル作成を検討してみました。
その結果、R2値は0.7161と大きく改善されましたが、初期に作成したR2値(0.76程度)よりよい結果は得られませんでした。今回追加したパラメーター類があまり影響度が高くなかったためかもしれません。
以上、新たに設定した説明変数を用いたモデル作成の検討結果について紹介させていただきました。次回は数値化の手法としてカテゴリ変数をダミー変数に変化して、モデル作成を検討した結果について紹介する予定です。