2.1.3 Vektorraummodell

Nächste Seite: 2.2 Hierarchische Ontologien Aufwärts: 2.1 Information Retrieval Vorherige Seite: 2.1.2 Textrepräsentation Inhalt

2.1.3 Vektorraummodell

Das Vektorraummodell wurde Anfang der 70er Jahre im Rahmen des SMART-Projektes entwickelt und in den 80er Jahren überarbeitet (vgl. [Fuh98]).

Im Vektorraummodell werden Dokumente als Punkte in einem Vektorraum betrachtet. Aufgespannt wird dieser Vektorraum durch die unterschiedlichen Terme oder Features einer Datenbasis. Features stellen hierbei Tupel dar, die Terme beispielsweise um Gewichtungen oder Kontextinformationen ergänzen. Der aufgespannte Vektorraum wird als orthonormal angenommen, was bedeutet, daß

alle Feature-Vektoren orthogonal (und somit auch linear unabhängig) sind und
alle Feature-Vektoren normiert sind. (vgl. [ebd.])

In diesem n-dimensionalen Vektorraum (n=Anzahl verschiedener Features) wird ein Dokument x repräsentiert durch seinen (gewichteten) Feature-Vektor $\vec{x}=(x_1, \ldots, x_n)$ . Hierbei ist in der Regel die Gewichtung des Features .

Alle Dokumente der Datenbasis, die im praktischen Teil dieser Arbeit (Kapitel 3 und 4) verwendet wird, werden auf der Basis dieses Modells als Feature-Vektoren dargestellt.