【G検定合格への道:第5回】モデルの選択と評価について解説!

AI技術の急速な発展に伴い、ビジネスにおける活用もますます広がっています。その中でも、ディープラーニングは画像認識や音声認識など様々な分野で革新的な成果を生み出しており、その技術を理解し、運用できる人材の需要が高まっています。

 

そこで今回は、ディープラーニングの基礎知識を体系的に習得できる「G検定」合格を目指す方に向けて、モデルの選択と評価について解説します。

1. データの扱い

 

モデルの性能を評価するためには、適切なデータを用いることが重要です。G検定では、以下のデータ処理に関する知識が問われます。

 

データの前処理: 標準化、正規化など
データ分割: 訓練データ、検証データ、テストデータへの分割
特徴量エンジニアリング: データの特徴量を抽出し、モデルの学習に適した形式に変換する

 

1.1 データの前処理

機械学習を利用して学習や予測を行う際は、データの前処理は欠かせません。例えば、データの大きさを適切にスケーリングする正規化や、データの平均を0、分散を1に変換を行う標準化など、状況に応じてさまざまな処理が必要です。

 

1.2 データの分割

モデルの適切な評価の流れについて考えていきます。モデルの評価では、未知のデータに対しての予測能力を見ることが適切です。未知のデータは、言葉の通り「未知」なので、準備をすることが出来ません。このため、手元にあるデータから疑似的に未知のデータを作り出すことになります。

 

手元にある全データを、学習用のデータと評価用のデータにランダムで分割して評価します。分割されたデータのうち、学習用のデータを訓練データ、評価用のデータをテストデータと呼びます。このようにデータを分割して評価することを交差検証と言います。この交差検証には以下の2種類があります。

ホールドアウト検証

ホールドアウト検証とは、事前にデータを訓練データとテストデータに分割するという方法です。この方法では、全体のデータ数が少ない場合には、たまたまテストデータに対する評価がよくなってしまう可能性もあります。

 

k-分割交差検証

k-分割交差検証は、訓練データ・テストデータの分割を複数回行い、それぞれで学習・評価を行うアプローチになります。

また、訓練データをさらに分割する場合もあります。その際に分割されたデータはそれぞれ訓練データ検証データと呼びます。

 

1.3 特徴量エンジニアリング

特徴量エンジニアリングとは、モデルが認識しやすい特徴をデータから作ることを言います。

 

例えば、カテゴリカル変数(性別、髪の色、国籍などのように「何かの種類」を表す変数のこと)を「カテゴリカル変数であると分かる形」に変換(encoding)することは特徴量エンジニアリングのひとつです。具体的には、たった1つの成分だけが1、残りの成分は0という形の特徴量に変換します。この形のことをone-hot-encodingと呼びます。

 

2. 評価指標

 

モデルの性能を評価するには、様々な指標を用いることができます。G検定では、以下の代表的な指標について理解する必要があります。

2.1 予測誤差

具体的にモデルの良し悪しは何を基準に判断すればよいでしょうか。分類問題においては、予測の「当たり・外れ」が明確にわかりますが、回帰問題では数値そのものを予測するので、「当たり・外れ」を分けることができません。

 

これを解決するアプローチとして、予測誤差をそのまま評価に用いる方法があります。一番シンプルな予測誤差を表す値は平均二乗誤差(mean squared error, MSE)です。これは対象となる各データの予測値と実際の値との誤差(差分)をそれぞれ2乗して総和を求めたものです。2乗することで正負の誤差が打ち消しあうことを防いだり、微分計算がしやすいなどのメリットがあります。

 

また他にも、用いる値を小さくするために平均二乗誤差のルートをとった二乗平均平方根誤差(root mean squared error, RMSE)や、2乗の代わりに絶対値をとった平均絶対値誤差(mean absolute error, MAE)などが用いられることもあります。

 

2.2 正解率・適合率・再現率・F値

予測の「当たり・外れ」を明確に分けることができる分類問題においては、「どれくらい予測が当たったか」がモデルの性能評価に用いられることになります。分類問題においてはいくつかの評価指標が定義されています。

 

例えば、10,000枚の犬、狼の画像を用いて、別の2,000枚の画像が犬なのか狼なのかを予測する簡単な分類問題を考えます。すなわち、訓練データ数が10,000枚、テストデータ数が2,000枚ということになります。

 

この時、予測値と実際の値は、それぞれ犬・狼とあるので、全組み合わせは2×2=4通りあることになります。この組み合わせ表のことを混合行列(confusion matrix)といいます。

 

混合行列(confusion matrix)
実際の値\予測値犬(Positive)狼(Negative)
犬(Positive)真陽性(True Positive:TP)偽陰性(False Negative:FN)
狼(Negaative)偽陽性(False Positive:FP)真陰性(True Negative:TN)

この中で、予測が当たっているのは、真陽性と真陰性になるので、この2つの合計を全データ数で除算したものが正解率(accuracy)となります。

正解率

 

予測が正の中で、実際に正であったものの割合を適合率(precision)といいます。

適合率

 

実際に正であるものの中で、正だと予測できた割合を再現率(recall)と言います。

再現率

 

適合率と再現率の調和平均をとったものをF値(F measure)といいます。適合率のみあるいは再現率のみで判断すると、予測が偏っているときも値が高くなってしまうため、F値を用いることも多いのです。

F値

 

これらの指標を全部同時に用いて評価するよりも、目的に沿った指標を選択することが重要です。いずれの指標を用いるにしても、モデルの性能はテストデータ(及び検証データ)を用いて評価・比較するということに注意する必要があります。

 

2.3 ROC曲線とAUC

正解率などとは異なった観点でモデルの性能を評価するのがROC曲線(receiver operating characteristic curve)及びAUC(area under the ROC curve)です。

 

2クラス分類の問題を考えるとき、ロジスティック回帰においては、モデルの出力自体は確率で表現されています。このため、基本的には0.5を閾値としてモデルの出力を正例(+1)か負例(0)かに分類しますが、閾値を変化させることによって、予測結果も変化することになります。

 

そこで、この閾値を0から1に変化させていった場合に、予測の当たり外れがどのように変化していくかを表したものがROC曲線になります。ROC曲線を理解するために、混合行列の値を用いて、真陽性率(True Positive Rate, TPR)と偽陽性率(False Positive Rate, FPR)を以下のように定義します。ここでTPRは再現率(recall)と同じであることに注意してください。

真陽性率(TPR)

偽陽性率(FPR)
ROC曲線は、横軸に偽陽性率(FPR)、縦軸に真陽性率(TPR)を取り、閾値を0から1に変化させていった際の両社の値をプロットしていった曲線のことです。

 

つまりROC曲線は、識別閾値を変化させたときの真陽性率と偽陽性率の関係を表した曲線です。またAUC は、ROC曲線とx軸で囲まれた面積のことで、0.5より大きいほど良いとされています。

 

3. モデルの選択と情報量

 

複数のモデルから最適なモデルを選択するためには、情報量規準を用いることができます。G検定では、以下の情報量規準について理解する必要があります。

 

一般的に、モデルを複雑にすればするほど難しいタスクも予測ができる可能性はあるわけですが、逆に言うと、表現しなくても良いノイズ部分まで表現してしまう(過学習してしまう)可能性もあります。このため一概に複雑にすれば良いというわけではありません。

 

また、モデルが複雑になればなるほど、学習に必要な計算コストも増えてしまうため、「ある事柄を説明するためには、必要以上に多くを仮定するべきでない」という指針を表すオッカムの剃刀(Occam's razor / Ockham's razor)に従うのが望ましいと言えます。

 

解きたいタスクに対して実際にモデルをどれくらい複雑にすれば良いかという問いに対して、ひとつの目安となるのが統計分野でも用いられる情報量基準という指標になります。情報量基準には以下の2種類がありますが、どちらをどういった時に用いるのかについては明確な線引きはありません。

 

  • 赤池情報量規準 (AIC): モデルの複雑さと誤差のバランスを考慮した指標
  • ベイズ情報量規準 (BIC): AICよりも過学習を抑制する傾向がある指標

 

いずれの指標もモデルのパラメータ数が大きすぎる場合にペナルティが課されるような数式になっており、基本的にはパラメータ数が一定範囲内にあるモデルを良しとする基準になっています。BICに関しては、データ数が大きい場合に、よりペナルティ項の影響が大きくなってくるという特徴を持っています。

 

まとめ

 

G検定では、モデルの選択と評価において、データの扱い、評価指標、モデル選択と情報量に関する知識が求められます。これらの知識をしっかりと理解し、実際に手を動かしながら学習することで、G検定合格への道が開けるでしょう。

 

Xでフォローしよう

おすすめの記事