Das Vektorraummodell wurde Anfang der 70er Jahre im Rahmen des SMART-Projektes entwickelt und in den 80er Jahren überarbeitet (vgl. [Fuh98]).
Im Vektorraummodell werden Dokumente als Punkte in einem Vektorraum betrachtet. Aufgespannt wird dieser
Vektorraum durch die unterschiedlichen Terme oder Features
einer Datenbasis. Features stellen hierbei
Tupel dar, die Terme beispielsweise um Gewichtungen oder Kontextinformationen ergänzen. Der aufgespannte
Vektorraum wird als orthonormal angenommen, was bedeutet, daß
In diesem n-dimensionalen Vektorraum (n=Anzahl verschiedener Features) wird ein Dokument
x repräsentiert durch seinen (gewichteten) Feature-Vektor
. Hierbei ist
in der Regel die Gewichtung des Features
.
Alle Dokumente der Datenbasis, die im praktischen Teil dieser Arbeit (Kapitel 3 und 4) verwendet wird, werden auf der Basis dieses Modells als Feature-Vektoren dargestellt.