Als Datenquelle für die Experimente wurden die Daten der Internet Movie Database (IMDb, http://www.imdb.com/) gewählt.
Die IMDb ist eine große Sammlung von filmbezogenen Informationen, in der versucht wird, jedes noch so kleine Detail zu einem Film zu erfassen (vgl. [Int02]). Hervorgegangen aus vier Listen, die Teil der FAQs der Usenet Newsgroup rec.arts.movies waren, mit hauptsächlich personenbezogenen Informationen zu ca. 10.000 Filmen, bietet die IMDb zum gegenwärtigen Zeitpunkt Informationen zu mehr als 300.000 Kino-, TV- und Video-Filmen, TV- und Mini-Serien sowie Videospielen und damit verknüpfte Informationen zu über 1.000.000 verschiedener Personen (Darstellern, Regisseuren, Produzenten, Drehbuchautoren, etc.). Durch die bereits strukturierte Form der dort vorliegenden Daten eignen diese sich sehr gut für die Generierung einer Menge von XML-Dokumenten.
Basis für die Generierung des XML-Korpus sind die von der IMDb öffentlich zur Verfügung gestellten Listen [Int] (Stand: 26.01.2002) und die für deren Verarbeitung unter Linux notwendigen ,,Commandline Tools`` [Nee98], insbesondere das darin enthaltenen Programms title. Mit Hilfe eines Perlskriptes wird die Ausgabe des Kommandos title für eine zufällig ausgewählte Menge von 450 Filmen geparst, in die entwickelte XML-Struktur (siehe DTD in Anhang A.1) umgewandelt und in einer Datenbanktabelle, die gewissermaßen als ,,Cache`` dient, abgespeichert.
Die Informationen, die ein so erzeugtes XML-Dokument beinhaltet, umfassen unter anderem:
Ein Beispiel für ein gemäß der angegebenen DTD erstelltes XML-Dokument findet sich in Anhang A.2.
Das Genre eines Films/Dokuments ist das Kriterium, nach dem die Klassifikation durchgeführt werden soll. Die Speicherung der Genres ist demzufolge sowohl für das Training des Klassifikators als auch für die spätere Evaluation der Klassifikation von Bedeutung. Für die Speicherung der Genres eines Films/Dokuments werden zwei Ansätze verwendet:
|