3.2 Daten

Nächste Seite: 3.3 Datenbankentwurf Aufwärts: 3 Implementierung Vorherige Seite: 3.1 Vorüberlegungen Inhalt

3.2 Daten

Als Datenquelle für die Experimente wurden die Daten der Internet Movie Database (IMDb, http://www.imdb.com/) gewählt.

Die IMDb ist eine große Sammlung von filmbezogenen Informationen, in der versucht wird, jedes noch so kleine Detail zu einem Film zu erfassen (vgl. [Int02]). Hervorgegangen aus vier Listen, die Teil der FAQs der Usenet Newsgroup rec.arts.movies waren, mit hauptsächlich personenbezogenen Informationen zu ca. 10.000 Filmen, bietet die IMDb zum gegenwärtigen Zeitpunkt Informationen zu mehr als 300.000 Kino-, TV- und Video-Filmen, TV- und Mini-Serien sowie Videospielen und damit verknüpfte Informationen zu über 1.000.000 verschiedener Personen (Darstellern, Regisseuren, Produzenten, Drehbuchautoren, etc.). Durch die bereits strukturierte Form der dort vorliegenden Daten eignen diese sich sehr gut für die Generierung einer Menge von XML-Dokumenten.

Basis für die Generierung des XML-Korpus sind die von der IMDb öffentlich zur Verfügung gestellten Listen [Int] (Stand: 26.01.2002) und die für deren Verarbeitung unter Linux notwendigen ,,Commandline Tools`` [Nee98], insbesondere das darin enthaltenen Programms title. Mit Hilfe eines Perlskriptes wird die Ausgabe des Kommandos title für eine zufällig ausgewählte Menge von 450 Filmen geparst, in die entwickelte XML-Struktur (siehe DTD in Anhang A.1) umgewandelt und in einer Datenbanktabelle, die gewissermaßen als ,,Cache`` dient, abgespeichert.

Die Informationen, die ein so erzeugtes XML-Dokument beinhaltet, umfassen unter anderem:

Filmtitel und Jahr der Erstaufführung
Personen in ihren verschiedenen Funktionen (Regisseur, Drehbuchautor, Produzent, etc. )
Darsteller und ihre jeweiligen Rollen
Kurze Inhaltsbeschreibungen
Produktions- und Special Effects Firmen
Drehorte (,,Locations``)
Altersbeschränkungen (FSK, MPAA ratings, etc.)
Schlüsselwörter

Ein Beispiel für ein gemäß der angegebenen DTD erstelltes XML-Dokument findet sich in Anhang A.2.

Das Genre eines Films/Dokuments ist das Kriterium, nach dem die Klassifikation durchgeführt werden soll. Die Speicherung der Genres ist demzufolge sowohl für das Training des Klassifikators als auch für die spätere Evaluation der Klassifikation von Bedeutung. Für die Speicherung der Genres eines Films/Dokuments werden zwei Ansätze verwendet:

In die Tabelle der XML-Dokumente wird ein ,,manuell`` zugeordnetes Genre zu jedem Film gespeichert. Die Verteilung der Dokumente auf die Genres nach diesem Schema zeigt Tabelle 2.

Tabelle 2: Verteilung der Trainingsdokumente auf die Klassen (,,manuelle`` Zuordnung)

Genre	# Dokumente	Genre	# Dokumente
Action	57	Horror	21
Adventure	13	Musical	0
Animation	15	Mystery	0
Comedy	92	Romance	8
Crime	4	Sci-Fi	57
Drama	72	Thriller	67
Family	1	War	1
Fantasy	22	Western	19
Film-Noir	1

In einer separaten Datenbanktabelle werden die Genres abgespeichert, die einem Film/Dokument gemäß den Informationen der IMDb zugeordnet sind. Die Notwendigkeit einer separaten Tabelle ergibt sich daraus, daß in der IMDb Filme häufig mehr als nur einem einzigen Genre zugeordnet sind. Diese Tatsache führt weiterhin dazu, daß die bestehenden Klassen nicht-disjunkte Mengen sind. Tabelle 3 zeigt die Verteilung der Dokumente auf die einzelnen Klassen nach diesem Schema.

Tabelle 3: Verteilung der Trainingsdokumente auf die Klassen (IMDb)

Genre	# Dokumente	Genre	# Dokumente
Action	175	Horror	46
Adventure	80	Musical	12
Animation	16	Mystery	32
Comedy	153	Romance	77
Crime	56	Sci-Fi	83
Drama	133	Thriller	122
Family	30	War	13
Fantasy	62	Western	20
Film-Noir	3

Nächste Seite: 3.3 Datenbankentwurf Aufwärts: 3 Implementierung Vorherige Seite: 3.1 Vorüberlegungen Inhalt