機械学習による予測として、中古不動産取引価格の予測モデルの作成を行ってみましたので、以後複数回に分けて紹介したいと思います。
よく紹介されるモデルとしてscikit-learnを使ったボストンの住宅価格の回帰予測モデルの例が紹介されていますが、身近な例として日本のある地域の不動産の価格の予測モデルの作成を検討してみました。
もとになる学習データですが、国土交通省から平成21年から蓄積されている不動産の取引価格情報を使いました。こちらは国土交通省の以下に表示のページから取引時期や都道府県、市町村を選択することでcsv形式のファイルをダウンロードすることができます。平成21年からですと約10年間の取引データがありますので、学習データとしてはまずまずのボリュームかと思います。
注意点ですが、不動産取引情報のデータはアンケートに基づき集約されているようなので、あくまで目安程度として考える必要があるようです(実際の価格情報は不動産関連の他の情報なども勘案する必要があるかと思いますので、その点ご留意ください)。
今回は、あくまで機械学習のモデル作成の題材として、自分自身の興味で取り上げていますので、その点ご了承ください。
実際にダウンロードして得られるデータは以下のようなデータになります。
選択したエリアでの住宅(土地)取引情報として、駅からの距離や土地面積、延床面積、建築年、取引価格がリスト化されています。
これらのデータかが学習に必要なデータをピックアップするのですが、不動産価格の評価に重要な築年数が数値としてリスト化されていません。建築年が和暦でリスト化されていますので、機械学習の前処理として、まずはこのデータから築年数を算出する必要があります。
以下のコードでは複数年のデータをあわせたcsvファイルを作成したもの(Fudosan2005_2021)を読み込み、データフレームとして読み込み、和暦を西暦に変換するライブラリー(jeraconv) を使って西暦(seireki)のデータを追加しています。
続いて取引年の情報を’取引時点’のデータから読み取るのですが、年の情報は最初の4文字に書かれていますので(四半期情報は不要)、その年の情報のみを抽出して取引年(torihiki_year)として追加しています。最後に建築年と取引年の差分から築年数を算出、追加しています。
以下はデータ処理後のデータフレームの表示です(csvファイルの段階で必要な情報のみにピックアップしていますので、もとの取得データからは項目が減っています)。右端に築年数が表示されているのがわかります。
以上で、価格の回帰モデル作成に必要な情報は整理できましたので、次回以降、種々の方法での回帰モデル作成の事例について紹介してゆきたいと思います。