next up previous contents
Nächste Seite: 2.1.3 Vektorraummodell Aufwärts: 2.1 Information Retrieval Vorherige Seite: 2.1.1 Qualitätsmaße   Inhalt

2.1.2 Textrepräsentation

Um ein Dokument elektronisch verarbeiten zu können, bedarf es einer geeigneten Repräsentation des Dokuments. Eine Art, ein Dokument zu repräsentieren, besteht darin, es als Summe seiner einzelnen Terme zu betrachten und dementsprechend in dieselbigen zu zerlegen, wobei whitespaces und Interpunktionszeichen als Worttrenner betrachtet werden. Weiterhin werden ,,Stopworte`` aus der entstandenen Menge von Termen entfernt. Die sogenannten ,,Stopworte`` sind Worte, die im allgemeinen als Informationsträger ohne Bedeutung bzw. von geringer Bedeutung sind, so daß sie entfernt werden können, ohne daß es zu einem nennenswerten Informationsverlust kommt. Zu diesen gehören insbesondere folgende (in Klammern stehen Beispiele für die englische Sprache):

Auf diese Weise können häufig 50% der Terme, in die ein Dokument zerlegt wurde, eliminiert werden (vgl. [Fuh93]).

Jedoch bergen die verbleibenden, bedeutungstragenden Terme einige weitere Schwierigkeiten in sich. Zu diesen gehören unter anderem laut Fuhr:

Um mit diesen sprachlichen und grammatikalischen Phänomenen umzugehen, bedient man sich verschiedener informatischer und auch computerlinguistischer Verfahren. Ein Konzept dabei ist das ,,Stemming``, bei dem Worte auf ihre Stammform reduziert werden. Ein Algorithmus, der Worte auf ihre Stammformen reduziert, ist der als ,,Porter-Stemmer`` bekannte ,,Algorithm for Suffix Stripping`` von M. Porter [Por80].

Weitere Methoden beinhalten unter anderem

Diese Methoden sollen jedoch hier nicht weiter betrachtet werden.


next up previous contents
Nächste Seite: 2.1.3 Vektorraummodell Aufwärts: 2.1 Information Retrieval Vorherige Seite: 2.1.1 Qualitätsmaße   Inhalt