next up previous contents
Nächste Seite: 3.4 Aufbereitung der Daten Aufwärts: 3 Implementierung Vorherige Seite: 3.2 Daten   Inhalt

3.3 Datenbankentwurf

Im folgenden wird die Struktur der Oracle-Datenbank, die die Trainingsdaten enthält, beschrieben. Sie besteht aus 6 Tabellen:

1 . xml_docs 2 . genres
3 . nodes 4 . stopwords
5 . features 6 . classify

Die XML-Dokumente werden in der Tabelle xml_docs gespeichert, die in Tabelle 4 beschrieben ist. Das Attribut Status dient insbesondere der Spezifikation der Trainingsdaten. Ein Wert ungleich 0 bedeutet, daß das Dokument zerlegt wurde, ein Wert von 1 identifiziert darüber hinaus ein Dokument als Trainingsdokument. Das in dieser Tabelle gespeicherte Genre beinhaltet die ,,manuelle`` Zuordnung des betreffenden Films zu einem Genre.


Tabelle 4: TABLE xml_docs
Attributname Datentyp Bemerkung
id NUMBER eindeutige ID, Primärschlüssel
data CLOB XML-Dokument
title VARCHAR2(120) Filmtitel
genre VARCHAR2(20) Genre
status NUMBER Status


In der Tabelle genres (siehe Tabelle 5) werden die Genres (aus der IMDb) gespeichert, die zu den Filmen aus xml_docs gehören. Der Primärschlüssel ist in diesem Fall die Kombination der beiden Attribute, da die IMDb die Zugehörigkeit eines Films zu mehreren Genres erlaubt.


Tabelle 5: TABLE genres
Attributname Datentyp Bemerkung
id NUMBER ID des Films, Fremdschlüssel aus xml_docs
genre VARCHAR2(30) Genre des Films


Für die Klassifikation ist es notwendig, die XML-Dokumente in Features zu zerlegen. Ein Feature ist in diesem Fall jeweils ein Term mit dem zugehörenden Namen des XML-Tags bzw. Knotens. Gespeichert werden diese Features in der Tabelle nodes (zu sehen in Tabelle 6).


Tabelle 6: TABLE nodes/classify
Attributname Datentyp Bemerkung
docid NUMBER ID des Films, Fremdschlüssel aus xml_docs
id NUMBER fortlaufende ID des Knotens
label VARCHAR2(20) Name des XML Knotens
content VARCHAR2(100) Term-Inhalt


Die Tabelle stopwords besteht lediglich aus dem Attribut stopword vom Typ VARCHAR2(30) und enthält eine Liste von Stopworten.

Die Tabelle features, deren Aufbau Tabelle 7 zeigt, dient der Speicherung der selektierten Features. Das Attribut mi dient allgemein der Speicherung eines Maßes für die Feature-Selektion und nicht ausschließlich der Speicherung von Mutual Information, wie es der Name nahelegt. Es hat seinen Namen aufgrund der Tatsache, daß Mutual Information der zuerst überprüfte Ansatz ist.


Tabelle 7: TABLE features
Attributname Datentyp Bemerkung
label VARCHAR2(20) Name des XML Knotens
content VARCHAR2(100) Term-Inhalt
tf NUMBER absolute Häufigkeit des Features
mi FLOAT(126) Mutual Information / Information Gain


Für die abschließende Klassifikation wird die Tabelle classify verwendet, die in ihrer Struktur mit der Tabelle nodes übereinstimmt.

Für jedes Attribut bzw. jede Attributkombination, die als JOIN-Kriterium verwendet werden, wird ein INDEX angelegt, um die Beantwortung von Datenbankanfragen zu beschleunigen.


next up previous contents
Nächste Seite: 3.4 Aufbereitung der Daten Aufwärts: 3 Implementierung Vorherige Seite: 3.2 Daten   Inhalt