3.3 Datenbankentwurf

Im folgenden wird die Struktur der Oracle-Datenbank, die die Trainingsdaten enthält, beschrieben. Sie besteht aus 6 Tabellen:

1	.	xml_docs	2	.	genres
3	.	nodes	4	.	stopwords
5	.	features	6	.	classify

Die XML-Dokumente werden in der Tabelle xml_docs gespeichert, die in Tabelle 4 beschrieben ist. Das Attribut Status dient insbesondere der Spezifikation der Trainingsdaten. Ein Wert ungleich 0 bedeutet, daß das Dokument zerlegt wurde, ein Wert von 1 identifiziert darüber hinaus ein Dokument als Trainingsdokument. Das in dieser Tabelle gespeicherte Genre beinhaltet die ,,manuelle`` Zuordnung des betreffenden Films zu einem Genre.

Tabelle 4: TABLE xml_docs

Attributname	Datentyp	Bemerkung
id	NUMBER	eindeutige ID, Primärschlüssel
data	CLOB	XML-Dokument
title	VARCHAR2(120)	Filmtitel
genre	VARCHAR2(20)	Genre
status	NUMBER	Status

In der Tabelle genres (siehe Tabelle 5) werden die Genres (aus der IMDb) gespeichert, die zu den Filmen aus xml_docs gehören. Der Primärschlüssel ist in diesem Fall die Kombination der beiden Attribute, da die IMDb die Zugehörigkeit eines Films zu mehreren Genres erlaubt.

Tabelle 5: TABLE genres

Attributname	Datentyp	Bemerkung
id	NUMBER	ID des Films, Fremdschlüssel aus xml_docs
genre	VARCHAR2(30)	Genre des Films

Für die Klassifikation ist es notwendig, die XML-Dokumente in Features zu zerlegen. Ein Feature ist in diesem Fall jeweils ein Term mit dem zugehörenden Namen des XML-Tags bzw. Knotens. Gespeichert werden diese Features in der Tabelle nodes (zu sehen in Tabelle 6).

Tabelle 6: TABLE nodes/classify

Attributname	Datentyp	Bemerkung
docid	NUMBER	ID des Films, Fremdschlüssel aus xml_docs
id	NUMBER	fortlaufende ID des Knotens
label	VARCHAR2(20)	Name des XML Knotens
content	VARCHAR2(100)	Term-Inhalt

Die Tabelle stopwords besteht lediglich aus dem Attribut stopword vom Typ VARCHAR2(30) und enthält eine Liste von Stopworten.

Die Tabelle features, deren Aufbau Tabelle 7 zeigt, dient der Speicherung der selektierten Features. Das Attribut mi dient allgemein der Speicherung eines Maßes für die Feature-Selektion und nicht ausschließlich der Speicherung von Mutual Information, wie es der Name nahelegt. Es hat seinen Namen aufgrund der Tatsache, daß Mutual Information der zuerst überprüfte Ansatz ist.

Tabelle 7: TABLE features

Attributname	Datentyp	Bemerkung
label	VARCHAR2(20)	Name des XML Knotens
content	VARCHAR2(100)	Term-Inhalt
tf	NUMBER	absolute Häufigkeit des Features
mi	FLOAT(126)	Mutual Information / Information Gain

Für die abschließende Klassifikation wird die Tabelle classify verwendet, die in ihrer Struktur mit der Tabelle nodes übereinstimmt.

Für jedes Attribut bzw. jede Attributkombination, die als JOIN-Kriterium verwendet werden, wird ein INDEX angelegt, um die Beantwortung von Datenbankanfragen zu beschleunigen.