2.4.2 Information Gain

Nächste Seite: 2.4.3 Mutual Information Aufwärts: 2.4 Feature-Selektion Vorherige Seite: 2.4.1 Häufigkeit von Features Inhalt

2.4.2 Information Gain

Der Informationsgewinn IG eines Features ist definiert als:

$\displaystyle IG(x_i)$	$\displaystyle =$	$\displaystyle \sum_{j=1}^k P(c_j) \log_2 \left( \frac{1}{P(c_j)} \right)$
$\displaystyle$	$\displaystyle -$	$\displaystyle P(x_i)\sum_{j=1}^k P(c_j \wedge x_i) \log_2 \left( \frac{1}{P(c_j \wedge x_i)} \right)$
$\displaystyle$	$\displaystyle -$	$\displaystyle P(\overline{x}_i)\sum_{j=1}^k P(c_j \wedge \overline{x}_i) \log_2 \left( \frac{1}{P(c_j \wedge \overline{x}_i)} \right)$

Für die Entscheidung zwischen k Klassen $c_1, \ldots, c_k$ werden die Features mit dem größten Wert für ausgewählt.

Durch den Informationsgewinn wird für jedes Feature ermittelt, wieviel Information für die Unterscheidung zwischen verschiedenen Klassen gewonnen wird oder verloren geht, wenn dieses Feature weggelassen wird (vgl. [YP97]).