Für die Untersuchung der Klassifikation semistrukturierter Daten werden im Rahmen dieser Arbeit Lösungen für folgende Teilaufgaben angestrebt:
Zur Generierung der Datenbasis wird für strukturierte Daten aus einer Filmdatenbank, der Internet Movie Database (IMDb), eine Document Type Description (DTD) konstruiert. Auf der Basis dieser DTD werden die zur Verfügung stehenden Filminformationen in XML-Form gebracht, so daß jeweils für einen Film ein entsprechendes XML-Dokument erzeugt wird.
Um die so erzeugte Datenbasis zu speichern, wird eine Datenbank entworfen, die auch für die späteren Aufgaben der Feature-Selektion und der Klassifikation geeignet ist. Als Klassifikationskriterium wird hierbei das Filmgenre gewählt. Diesbezüglich werden zwei verschiedene Ansätze der Zuordnung von Filmen zu Genres berücksichtigt:
Um der Struktur von XML-Dokumenten Rechnung zu tragen, wird im Gegensatz zu der sonst üblichen Dokumenten-Repräsentation durch reine Terme das Modell einer Kombination aus XML-Tags und Termen als ,,strukturierte`` Features gewählt.
Als Klassifikationsalgorithmus wird das Naive-Bayes-Verfahren implementiert. Die Implementierung beinhaltet weiterhin verschiedene Verfahren zur Feature-Selektion, wobei zu diesem Zweck folgende Maße verwendet werden:
Mit dem entwickelten Prototypen werden Experimente durchgeführt, welche die Qualität der Klassifikation auf der Basis des Maßes Precision ermitteln sollen. Im Vergleich der einzelnen Experimente miteinander wird die Qualität der Klassifikation unter folgenden Gesichtspunkten untersucht: