Nächste Seite: 5.1 Schlußfolgerungen Aufwärts: diplom Vorherige Seite: 4.6 Klassifikation der Trainingsdokumente Inhalt

5 Zusammenfassung

Im Rahmen dieser Arbeit wurde eine Document Type Description (DTD) für strukturierte, filmbezogene Daten aus der Internet Movie Database entwickelt. Auf dieser Basis wurde eine Menge von XML-Dokumenten erzeugt und in der zu diesem Zweck konstruierten Datenbank gespeichert.

Repräsentiert wurden die XML-Dokumente durch ,,strukturierte`` Features, die den reinen Textinhalt mit Hilfe der Namen der beinhaltenden XML-Tags um Kontextinformationen bereicherten.

Für die Klassifikation dieser XML-Dokumente wurde ein Klassifikator nach dem Naive-Bayes-Verfahren implementiert. Diesem wurden verschiedene Methoden zur Feature-Selektion vorgeschaltet:

Selektion über Feature-Häufigkeiten in zwei Varianten:
1. Selektion von Features mit der höchsten absoluten Häufigkeit,
2. p-Selektion, wobei diese eine modifizierte Version der Selektion von Features über ihre absolute Häufigkeit darstellt;
Selektion über Information Gain und Mutual Information.

Grundlage für die Klassifikation war das jedem XML-Dokument zugeordnete Genre, wobei für diese Zuordnung zwei Schemata untersucht wurden, ein eindeutiges Zuordnungsschema, das jedem Film ein Genre zuordnete, und ein mehrdeutiges (und realitätsnahes) Schema auf der Basis der Informationen der Internet Movie Database, das Filme mitunter mehreren Genres zuordnet.

Mit Hilfe der implementierten Algorithmen wurde eine Reihe von Experimenten durchgeführt. Im Verlauf der Experiemente ergab sich eine sehr niedrige Precision bei der Klassifikation von unbekannten Dokumenten, so daß von mangelhaften Klassifikationsergebnissen gesprochen werden kann. Bei der Klassifikation von trainierten Dokumenten hat sich gezeigt, daß nur der Ansatz der p-Selektion zu guten Klassifikationsergebnissen (Precision> 0,95) führte. Weder die einfache Feature-Selektion über absolute Häufigkeit, Information Gain oder Mutual Information noch eine aus der p-Selektion und Information Gain bzw. Mutual Information kombinierte Feature-Selektion führten zu einem vergleichbar guten Klassifikationsergebnis, wobei deren maximale Precision< 0,4.

Im Vergleich der Klassifikation von XML-Dokumenten mit Hilfe ,,strukturierter`` Features und der Klassifikation der korrespondierenden Textdokumente (ohne XML-Tags) mit Hilfe einer Term-Repräsentation stellte sich heraus, daß beide Methoden zu ähnlich guten Klassifikationsergebnissen führten.

Unterabschnitte

Nächste Seite: 5.1 Schlußfolgerungen Aufwärts: diplom Vorherige Seite: 4.6 Klassifikation der Trainingsdokumente Inhalt