next up previous contents
Nächste Seite: 2.4.3 Mutual Information Aufwärts: 2.4 Feature-Selektion Vorherige Seite: 2.4.1 Häufigkeit von Features   Inhalt


2.4.2 Information Gain

Der Informationsgewinn IG eines Features $ x_i$ ist definiert als:


$\displaystyle IG(x_i)$ $\displaystyle =$ $\displaystyle \sum_{j=1}^k P(c_j) \log_2 \left( \frac{1}{P(c_j)} \right)$  
$\displaystyle  $ $\displaystyle -$ $\displaystyle P(x_i)\sum_{j=1}^k P(c_j \wedge x_i) \log_2 \left( \frac{1}{P(c_j \wedge x_i)} \right)$  
$\displaystyle  $ $\displaystyle -$ $\displaystyle P(\overline{x}_i)\sum_{j=1}^k P(c_j \wedge \overline{x}_i) \log_2 \left( \frac{1}{P(c_j \wedge \overline{x}_i)} \right)$  

Für die Entscheidung zwischen k Klassen $ c_1, \ldots, c_k$ werden die Features $ x_i$ mit dem größten Wert für $ IG(x_i)$ ausgewählt.

Durch den Informationsgewinn wird für jedes Feature $ x_i$ ermittelt, wieviel Information für die Unterscheidung zwischen verschiedenen Klassen gewonnen wird oder verloren geht, wenn dieses Feature weggelassen wird (vgl. [YP97]).