next up previous contents
Nächste Seite: 2.2 Hierarchische Ontologien Aufwärts: 2.1 Information Retrieval Vorherige Seite: 2.1.2 Textrepräsentation   Inhalt

2.1.3 Vektorraummodell

Das Vektorraummodell wurde Anfang der 70er Jahre im Rahmen des SMART-Projektes entwickelt und in den 80er Jahren überarbeitet (vgl. [Fuh98]).

Im Vektorraummodell werden Dokumente als Punkte in einem Vektorraum betrachtet. Aufgespannt wird dieser Vektorraum durch die unterschiedlichen Terme oder Features $ f_i$ einer Datenbasis. Features stellen hierbei Tupel dar, die Terme beispielsweise um Gewichtungen oder Kontextinformationen ergänzen. Der aufgespannte Vektorraum wird als orthonormal angenommen, was bedeutet, daß

In diesem n-dimensionalen Vektorraum (n=Anzahl verschiedener Features) wird ein Dokument x repräsentiert durch seinen (gewichteten) Feature-Vektor $ \vec{x}=(x_1, \ldots, x_n)$. Hierbei ist $ x_i$ in der Regel die Gewichtung des Features $ f_i$.

Alle Dokumente der Datenbasis, die im praktischen Teil dieser Arbeit (Kapitel 3 und 4) verwendet wird, werden auf der Basis dieses Modells als Feature-Vektoren dargestellt.