本記事では過学習について説明しています。
目次は以下の通りです。
過学習とは
過学習とは学習データで予測精度が高いのにテストデータになると予測精度が下がる状況です。
過剰適合やオーバーフィッティングとも呼ばれ、イメージ的には問題集を何周もせいで少し変えた問題が解けなくなっている状態と近いです。そして、この状況はモデルとして使い物にならないので、改善が必要な状態です。
過学習が起きている状態を下に示します。
回帰モデルの例ですが、線形であるべきところかなり曲線がすごいですよね。このように誤差を小さくしようとすると未知なデータが来ても対応できなくなります。
過学習の原因
過学習の原因としては以下のようなものがあります。
・モデルが複雑
・データ数に対して説明変数が多い
・パラメータが大きい
などがあげられます。
過学習の対策
過学習の対策としては
・正則化
・データ数を増やす
・パラメータの調整
などがあります。
また、具体的な対策としては決定木のアンサンブル学習や交差検証法を用いれば過学習の抑制につながります。
まとめ
本記事のポイントを以下にまとめます。
・過学習は学習データの予測精度が高いがテストデータの予測精度が低い状況
・原因としてはモデルが複雑、データ数に対して説明変数が多い、パラメータが大きいがある
・対策としては正則化、データ数を増やす、パラメータの調整がある
コメント