2.1.2 Textrepräsentation

Nächste Seite: 2.1.3 Vektorraummodell Aufwärts: 2.1 Information Retrieval Vorherige Seite: 2.1.1 Qualitätsmaße Inhalt

2.1.2 Textrepräsentation

Um ein Dokument elektronisch verarbeiten zu können, bedarf es einer geeigneten Repräsentation des Dokuments. Eine Art, ein Dokument zu repräsentieren, besteht darin, es als Summe seiner einzelnen Terme zu betrachten und dementsprechend in dieselbigen zu zerlegen, wobei whitespaces und Interpunktionszeichen als Worttrenner betrachtet werden. Weiterhin werden ,,Stopworte`` aus der entstandenen Menge von Termen entfernt. Die sogenannten ,,Stopworte`` sind Worte, die im allgemeinen als Informationsträger ohne Bedeutung bzw. von geringer Bedeutung sind, so daß sie entfernt werden können, ohne daß es zu einem nennenswerten Informationsverlust kommt. Zu diesen gehören insbesondere folgende (in Klammern stehen Beispiele für die englische Sprache):

Artikel (a, the, $\ldots$ ),
Personalpronomina (he, she, it, $\ldots$ ),
Konjunktionen (and, nevertheless, $\ldots$ ),
häufig verwendete Verben bzw. Hilfsverben (be, do, see, $\ldots$ ) mit all ihren Flexionsformen,

Auf diese Weise können häufig 50% der Terme, in die ein Dokument zerlegt wurde, eliminiert werden (vgl. [Fuh93]).

Jedoch bergen die verbleibenden, bedeutungstragenden Terme einige weitere Schwierigkeiten in sich. Zu diesen gehören unter anderem laut Fuhr:

,,Homographen: verschieden gesprochene Wörter mit gleicher Schreibweise (z. B. Tenor: Sänger / Ausdrucksweise)
Polyseme: Wörter mit mehreren Bedeutungen (z. B. Bank: Sitzgelegenheit / Geldinstitut)
Flexionsformen, die durch Konjugation und Deklination eines Wortes entstehen (z. B. Haus - (des) Hauses - Häuser oder schreiben - schreibt - schrieb - geschrieben)
Derivationsformen: verschiedene Wortformen zu einem Wortstamm (z. B. Formatierung - Format - formatieren)
Komposita: mehrgliedrige Ausdrücke (z. B. Bundeskanzlerwahl - Wahl des Bundeskanzlers)`` [Fuh93]

Um mit diesen sprachlichen und grammatikalischen Phänomenen umzugehen, bedient man sich verschiedener informatischer und auch computerlinguistischer Verfahren. Ein Konzept dabei ist das ,,Stemming``, bei dem Worte auf ihre Stammform reduziert werden. Ein Algorithmus, der Worte auf ihre Stammformen reduziert, ist der als ,,Porter-Stemmer`` bekannte ,,Algorithm for Suffix Stripping`` von M. Porter [Por80].

Weitere Methoden beinhalten unter anderem

die Entfernung von Suffixen und Affixen,
auf Wörterbüchern basierende lexikalische Verfahren,
die Berücksichtigung von Wortabständen und -reihenfolge.

Diese Methoden sollen jedoch hier nicht weiter betrachtet werden.

Nächste Seite: 2.1.3 Vektorraummodell Aufwärts: 2.1 Information Retrieval Vorherige Seite: 2.1.1 Qualitätsmaße Inhalt