4.6 Klassifikation der Trainingsdokumente in Textform (ohne XML-Tags)

Nächste Seite: 5 Zusammenfassung Aufwärts: 4 Experimente Vorherige Seite: 4.5 Klassifikation der Testdokumente Inhalt

4.6 Klassifikation der Trainingsdokumente in Textform (ohne XML-Tags)

Als letztes Experiment dieser Reihe wird eine Klassifikation der Trainingsdaten vorgenommen, um auch für die Textdaten die ,,Lernqualität`` des Klassifikators zu ermitteln. Basis für diese Messung ist weiterhin die Zuordnung von Dokumenten zu Klassen nach dem ,,manuellen`` Schema. Über die einfache Feature-Selektion von 1000 Features durch die vier verwendeten Methoden werden die Features der Trainingsdaten selektiert, mit denen der Klassifikator trainiert wird, der anschließend die trainierten Daten klassifiziert.

**Abbildung 14:** Einfache Feature-Selektion von 1000 Features (Trainingsdaten Text, manuell)
$\begin{figure}\centering \epsffile{data/exp6-1.eps} \end{figure}$

Auch in diesem Fall zeigt sich, daß nur die p-Selektion zu einem guten Klassifikationsergebnis mit einer Precision > 0,95 führt, während die anderen Feature-Selektionsmethoden Precision < 0,4 zur Folge haben. Im Vergleich zwischen der Klassifikation von Textdokumenten und der von XML-Dokumenten (siehe Abbildung 15) zeigt sich, daß beide Konzepte der Textrepräsentation zu ähnlich guten Ergebnissen führen.

**Abbildung 15:** Vergleich der Klassifikation von Text und XML (Trainingsdaten, manuell)
$\begin{figure}\centering \epsffile{data/exp6-2.eps} \end{figure}$

Auch die Klassifikation der Trainingsdatenbasis bestätigt die Annahme, das zumindest die Verwendung von ,,strukturierten`` Features nicht Grund der schlechten Klassifikationsqualität ist.

Angesichts der erhobenen Daten ergeben sich folgende mögliche Erklärungen:

Die vorhandene Datenbasis ist zu klein, um repräsentative Klassifikation von Dokumenten durchzuführen.
Die vorhandene Datenbasis ist durch ihre Struktur oder ihre Inhalte nicht für die autmoatische Klassifikation zumindest bzgl. des gewählten Klassifikationskriteriums geeignet.

Nächste Seite: 5 Zusammenfassung Aufwärts: 4 Experimente Vorherige Seite: 4.5 Klassifikation der Testdokumente Inhalt