next up previous contents
Nächste Seite: 2.4.2 Information Gain Aufwärts: 2.4 Feature-Selektion Vorherige Seite: 2.4 Feature-Selektion   Inhalt

2.4.1 Häufigkeit von Features

Die absolute Häufigkeit gibt wieder, wie oft ein Feature in einer Dokumentenmenge vorkommt:

$\displaystyle freq(x_i)=\vert\mathrm{Vorkommen von } x_i \mathrm{ in docs}\vert
$

Die relative Häufigkeit beschreibt die Anzahl der verschiedenen Dokumente, in denen ein Feature auftaucht. Es läßt sich berechnen als

$\displaystyle df(x_i)=\vert\mathrm{docs mit } x_i\vert
$

Mit beiden Methoden wird eine schnelle Entfernung von Features ermöglicht, die aufgrund ihres seltenen Auftauchens als nicht-informativ bezüglich der Entscheidung zwischen verschiedene Klassen gelten können. Gleichzeitig besteht jedoch die Gefahr, daß auf diese Weise die ,,Quasi-Stopworte`` bevorzugt werden, die trotz ihres häufigen Auftretens in der Dokumentenmenge nur geringen Informationsgehalt haben. Im Vergleich der beiden Methoden gibt die relative Häufigkeit die Verteilung von Features auf die Dokumentenmenge genauer wieder als die absolute Häufigkeit, zur Eliminierung von seltenen Features, insbesondere solchen, die nur einmal auftreten, sind beide Methoden gleichermaßen gut geeignet.