3.6 Feature-Selektion

Nächste Seite: 4 Experimente Aufwärts: 3 Implementierung Vorherige Seite: 3.5 Klassifikator Inhalt

3.6 Feature-Selektion

Für die Feature-Selektion wird eine zweistufige Selektion eingesetzt. Die erste Stufe selektiert Features aufgrund von absoluten Häufigkeiten, die zweite Stufe basiert auf Information Gain und Mutual Information.

Die Implementierung sieht sowohl Selektion durch eine der genannten Stufen als auch die Kombination beider Stufen vor.

Die Selektion von Features über ihre absolute Häufigkeit, wird in zwei verschiedenen Versionen verwendet:

Selektion von k Features mit den größten Häufigkeitswerten.
Selektion von k Features ab dem m-häufigsten.
Dabei ist $m=(n-n_1)\frac{p}{100}$ mit

n = Anzahl verschiedener Features

= Anzahl der Features mit Häufigkeit 1

p = Prozentsatz zu ignorierender Features

Durch diese Selektion wird also ein gewisser Prozentsatz von Features ,,weggeschnitten``, die häufiger als einmal in der Dokumentenmenge vorkommen. Diese Selektion wird im folgenden zur Vereinfachung p-Selektion genannt. Als Wert von p wird hierbei 20 angenommen, sofern nichts anderes angegeben wird.

n	=	Anzahl verschiedener Features
	=	Anzahl der Features mit Häufigkeit 1
p	=	Prozentsatz zu ignorierender Features

Für die weitergehende Feature-Selektion wurden Mutual Information (siehe 2.4.3) und Information Gain (siehe 2.4.2) verwendet. Diese Methoden wurden jeweils mit der Möglichkeit einer vorgeschalteten Häufigkeitsselektion (s.o.) implementiert. Um gleiche Werte für diese Maße bei verschiedenen Features zu vermeiden, wenn z. B. Features gleich oft und gleich verteilt in der Dokumentenmenge erscheinen, wird bei der Berechnung eine Zufallszahl r<1/100000 hinzuaddiert.

Nächste Seite: 4 Experimente Aufwärts: 3 Implementierung Vorherige Seite: 3.5 Klassifikator Inhalt