情報利得と利得比の計算

Rapid growthプロパティが有効になっている場合、ノードの分岐の一部は、情報利得ではなく、情報利得比によって決定されます。このセクションでは、情報利得と情報利得比の算出方法のほか、その利点と欠点について説明します。これらの説明では、属性は、分類変数または尺度変数のビンの特定の測定レベルとみなしています。

情報利得法では、どの属性が情報利得を最大にするかに基づいて分岐を選択します。利得は、ビット単位で測定されます。この方法を使用すると、良い結果が得られますが、属性数が多い変数での分岐が有利になります。情報利得比法では、分岐の値を組み込んで、その分岐に実際に価値のある情報利得の比率を決定します。最大の情報利得比をもつ分岐が選択されます。

情報利得の計算は、学習データの情報の決定から始まります。応答値の情報rは、次の式で計算されます。

-log_2(freq(r, T) / |T| ). 別の形式を利用するにはイメージをクリックします。

Tは、学習データを表し、|T|は、オブザベーションの数を表しています。学習データの推定情報を決定するには、想定し得るすべての応答値について、この式を合計します。

I(T) = –Sum from i=1 to n of (freq(r_i, T) / |T|)*log_2(freq(r_i, T) / |T| ). 別の形式を利用するにはイメージをクリックします。

ここで、nは、応答値の総数です。この数は、学習データのエントロピーとしても参照されます。

次に、m個の想定し得る属性を持つ変数Xでの分岐Sについて検討します。この分岐で提供される推定情報は、次の方程式により計算されます。

I_S(T) = sum from j=1 to m of (|T_j| / |T|)*I(T_j). 別の形式を利用するにはイメージをクリックします。

この方程式で、T_jは、j^番目の属性を含むオブザベーションを表します。

分岐Sの情報利得は、次の方程式により計算されます。

G(S) = I(T) – I_S(T). 別の形式を利用するにはイメージをクリックします。

情報利得比では、分岐情報値の導入による情報利得計算の修正が試行されます。分岐情報は、次の方程式により計算されます。

SI(S) = –sum from j=1 to m of (|T_j| / |T|)*log_2(|T_j| / |T|). 別の形式を利用するにはイメージをクリックします。

情報利得比とは、名前が示すとおり、分岐情報に対する情報利得の比です。

GR(S) = G(S) / SI(S). 別の形式を利用するにはイメージをクリックします。