1.2 Aufgabenstellung

Nächste Seite: 1.3 Gliederung Aufwärts: 1 Einleitung Vorherige Seite: 1.1 Motivation Inhalt

1.2 Aufgabenstellung

Für die Untersuchung der Klassifikation semistrukturierter Daten werden im Rahmen dieser Arbeit Lösungen für folgende Teilaufgaben angestrebt:

Entwicklung einer geeigneten XML-Dokumentenstruktur für die verwendeten Daten
Erstellung einer Datenbasis von XML-Dokumenten auf der Basis der entwickelten Struktur
Entwicklung einer Datenbank zur Speicherung der generierten Datenbasis
Implementierung eines Naive-Bayes-Klassifikators
Implementierung verschiedener Verfahren zur Feature-Selektion
Durchführung verschiedener Experimente zur Evaluation der implementierten Algorithmen

Zur Generierung der Datenbasis wird für strukturierte Daten aus einer Filmdatenbank, der Internet Movie Database (IMDb), eine Document Type Description (DTD) konstruiert. Auf der Basis dieser DTD werden die zur Verfügung stehenden Filminformationen in XML-Form gebracht, so daß jeweils für einen Film ein entsprechendes XML-Dokument erzeugt wird.

Um die so erzeugte Datenbasis zu speichern, wird eine Datenbank entworfen, die auch für die späteren Aufgaben der Feature-Selektion und der Klassifikation geeignet ist. Als Klassifikationskriterium wird hierbei das Filmgenre gewählt. Diesbezüglich werden zwei verschiedene Ansätze der Zuordnung von Filmen zu Genres berücksichtigt:

die Zuordnung durch die IMDb, bei der Filme mehreren Genres zugeordnet sein können, so daß nicht-disjunkte Klassen entstehen
eine ,,intellektuelle`` Zuordnung, bei der jedem Film genau ein Genre zugeordnet ist

Um der Struktur von XML-Dokumenten Rechnung zu tragen, wird im Gegensatz zu der sonst üblichen Dokumenten-Repräsentation durch reine Terme das Modell einer Kombination aus XML-Tags und Termen als ,,strukturierte`` Features gewählt.

Als Klassifikationsalgorithmus wird das Naive-Bayes-Verfahren implementiert. Die Implementierung beinhaltet weiterhin verschiedene Verfahren zur Feature-Selektion, wobei zu diesem Zweck folgende Maße verwendet werden:

Häufigkeit von Features
Information Gain
Mutual Information

Mit dem entwickelten Prototypen werden Experimente durchgeführt, welche die Qualität der Klassifikation auf der Basis des Maßes Precision ermitteln sollen. Im Vergleich der einzelnen Experimente miteinander wird die Qualität der Klassifikation unter folgenden Gesichtspunkten untersucht:

Unterschied durch die Dokumenten-Repräsentation (Terme vs. strukturierte Features)
Unterschied durch die verschiedenen Methoden der Feature-Selektion

Nächste Seite: 1.3 Gliederung Aufwärts: 1 Einleitung Vorherige Seite: 1.1 Motivation Inhalt