Im folgenden wird die Struktur der Oracle-Datenbank, die die Trainingsdaten enthält, beschrieben. Sie besteht aus 6 Tabellen:
| 1 | . | xml_docs | 2 | . | genres |
| 3 | . | nodes | 4 | . | stopwords |
| 5 | . | features | 6 | . | classify |
Die XML-Dokumente werden in der Tabelle xml_docs gespeichert, die in Tabelle 4 beschrieben ist. Das Attribut Status dient insbesondere der Spezifikation der Trainingsdaten. Ein Wert ungleich 0 bedeutet, daß das Dokument zerlegt wurde, ein Wert von 1 identifiziert darüber hinaus ein Dokument als Trainingsdokument. Das in dieser Tabelle gespeicherte Genre beinhaltet die ,,manuelle`` Zuordnung des betreffenden Films zu einem Genre.
|
In der Tabelle genres (siehe Tabelle 5) werden die Genres (aus der IMDb) gespeichert, die zu den Filmen aus xml_docs gehören. Der Primärschlüssel ist in diesem Fall die Kombination der beiden Attribute, da die IMDb die Zugehörigkeit eines Films zu mehreren Genres erlaubt.
|
Für die Klassifikation ist es notwendig, die XML-Dokumente in Features zu zerlegen. Ein Feature ist in diesem Fall jeweils ein Term mit dem zugehörenden Namen des XML-Tags bzw. Knotens. Gespeichert werden diese Features in der Tabelle nodes (zu sehen in Tabelle 6).
Die Tabelle stopwords besteht lediglich aus dem Attribut stopword vom Typ VARCHAR2(30) und enthält eine Liste von Stopworten.
Die Tabelle features, deren Aufbau Tabelle 7 zeigt, dient der Speicherung der selektierten Features. Das Attribut mi dient allgemein der Speicherung eines Maßes für die Feature-Selektion und nicht ausschließlich der Speicherung von Mutual Information, wie es der Name nahelegt. Es hat seinen Namen aufgrund der Tatsache, daß Mutual Information der zuerst überprüfte Ansatz ist.
|
Für die abschließende Klassifikation wird die Tabelle classify verwendet, die in ihrer Struktur mit der Tabelle nodes übereinstimmt.
Für jedes Attribut bzw. jede Attributkombination, die als JOIN-Kriterium verwendet werden, wird ein INDEX angelegt, um die Beantwortung von Datenbankanfragen zu beschleunigen.