next up previous contents
Nächste Seite: 2.5 XML Aufwärts: 2.4 Feature-Selektion Vorherige Seite: 2.4.2 Information Gain   Inhalt


2.4.3 Mutual Information

Die ,,Distanz`` zwischen zwei Wahrscheinlichkeitsverteilungen p und q kann durch ihre relative Entropie gemessen werden:

$\displaystyle RE(p,q)=\sum_x p(x)\; \frac{p(x)}{q(x)}
$

Mutual Information ist die relative Entropie zwischen der Wahrscheinlichkeit zweier Variablen $ P(x \wedge y)$ und dem Produkt ihrer einzelnen Wahrscheinlichkeiten $ P(x)\; P(y)$:

$\displaystyle MI(X,Y)=\sum_{x, y} P(x \wedge y)\; \log_2 \frac{P(x \wedge y)}{P(x)\; P(y)}
$

Mit Mutual Information wird der Informationsgehalt gemessen, über den die beteiligten Wahrscheinlichkeitsverteilungen wechselseitig (mutual) verfügen.

Im Kontext der Klassifikation für Features $ x_i$ und Klassen $ c_j$ ist deren Mutual Information

$\displaystyle MI(x_i,c_j)=P(x_i \wedge c_j)\; \log_2 \frac{P(x_i \wedge c_j)}{P(x_i)\; P(c_j)}
$

Für die Selektion eines Features $ x_i$ werden die MI Werte für alle Klassen $ c_j$ gewichtet nach deren Wahrscheinlichkeit $ P(c_j)$ summiert:

$\displaystyle MI(x_i)=\sum_{j=1}^k P(c_j) \; MI(x_i,c_j)
$

Für die Entscheidung zwischen k Klassen $ c_1, \ldots, c_k$ werden diejenigen Features $ x_i$ ausgewählt, für die $ MI(x_i)$ am größten ist.