2.4.3 Mutual Information

Nächste Seite: 2.5 XML Aufwärts: 2.4 Feature-Selektion Vorherige Seite: 2.4.2 Information Gain Inhalt

2.4.3 Mutual Information

Die ,,Distanz`` zwischen zwei Wahrscheinlichkeitsverteilungen p und q kann durch ihre relative Entropie gemessen werden:

$\displaystyle RE(p,q)=\sum_x p(x)\; \frac{p(x)}{q(x)}$

Mutual Information ist die relative Entropie zwischen der Wahrscheinlichkeit zweier Variablen $P(x \wedge y)$ und dem Produkt ihrer einzelnen Wahrscheinlichkeiten $P(x)\; P(y)$ :

$\displaystyle MI(X,Y)=\sum_{x, y} P(x \wedge y)\; \log_2 \frac{P(x \wedge y)}{P(x)\; P(y)}$

Mit Mutual Information wird der Informationsgehalt gemessen, über den die beteiligten Wahrscheinlichkeitsverteilungen wechselseitig (mutual) verfügen.

Im Kontext der Klassifikation für Features und Klassen ist deren Mutual Information

$\displaystyle MI(x_i,c_j)=P(x_i \wedge c_j)\; \log_2 \frac{P(x_i \wedge c_j)}{P(x_i)\; P(c_j)}$

Für die Selektion eines Features werden die MI Werte für alle Klassen gewichtet nach deren Wahrscheinlichkeit summiert:

$\displaystyle MI(x_i)=\sum_{j=1}^k P(c_j) \; MI(x_i,c_j)$

Für die Entscheidung zwischen k Klassen $c_1, \ldots, c_k$ werden diejenigen Features ausgewählt, für die am größten ist.