Nächste Seite: 4.1 Klassifikation der Testdaten Aufwärts: diplom Vorherige Seite: 3.6 Feature-Selektion Inhalt

4 Experimente

Es werden verschiedene Reihen von Experimenten durchgeführt. Für diese Experimente wird die vorhandene Datenbasis von 450 Dokumenten aufgeteilt in

eine Menge von 300 Dokumenten für das Training des Klassifikators als Trainingsdatenbasis und
150 Dokumente als Testbasis für die Experimente.

Für die Klassifikation und die Feature-Selektion wurden die in Kapitel 3 genannten Algorithmen verwendet.

Ziel dieser Experimente ist es, die Vor- und Nachteile zu ermitteln, die sich für die Klassifikation von XML-Dokumenten mit Hilfe von ,,strukturierten`` Features ergibt. Die Textdokumente, die aus der Datenbasis durch das Weglassen der XML-Tags hervorgehen, werden dabei zu Vergleichszwecken als zweite Datenbasis, unter gleicher Aufteilung wie oben, herangezogen.

Gleichzeitig sollen die Experimente Aufschluß darüber geben, unter welchen äußeren Bedingungen XML-Dokumente am besten zu klassifizieren sind. Zu diesem Zweck werden verschiedene Ansätze der automatischen Selektion von Features untersucht:

Selektion der k häufigsten Features
p-Selektion von k Features (siehe S. )
Selektion der k Features mit dem höchsten Wert für IG
Selektion der k Features mit dem höchsten Wert für MI
Vorselektion durch p-Selektion und weitere Reduktion der selektierten Features durch Information Gain bzw. Mutual Information

Hierbei werden in den Experimenten für k die Werte 1000, 1500 und 2000 gewählt. Die p-Selektion wird für $p \in \{10,15,20\}$ untersucht.

Zur Verifizierung und der Vermeidung von ,,Irrläufern`` bei den Messungen werden diese jeweils dreifach durchgeführt und der Mittelwert dieser drei Messungen gebildet.

Die Tatsache, daß die gegebenen Klassen für die Zuordnung durch die IMDb nicht disjunkt sind, bedeutet, daß das Maß Recall in diesem Fall nicht sinnvoll anwendbar ist, da eine korrekte Klassifikation abhängig von der Anzahl der Klassen, zu der ein Dokument gehört, entsprechend viele falsche Klassifikationen impliziert. So würde z. B. für ein Dokument, das den Klassen Action und Thriller angehört, die korrekte Klassifikation als Action dazu führen, daß der Recall für die Klasse Thriller verringert würde. Das primäre Vergleichsmaß ist aus diesem Grund Precision. Für dieses Maß wird ein Wert von > 0,8 als gute, ein Wert von > 0,95 als zuverlässige Klassifikation erachtet.

Unterabschnitte

Nächste Seite: 4.1 Klassifikation der Testdaten Aufwärts: diplom Vorherige Seite: 3.6 Feature-Selektion Inhalt