Die zunehmende Verfügbarkeit von Informationen in elektronischer Form durch die globale Vernetzung des Internet erzeugt die Notwendigkeit, in dieses ,,Chaos`` von Information ,,Ordnung`` zu bringen. In diesem Zusammenhang spricht man häufig von der ,,Informationsgesellschaft``, in der eine deutliche Trennlinie besteht zwischen strukturiertem Wissen, das sich in einem semantischen, bedeutungstragenden Kontext befindet, und ,,rohen`` Daten, die als solche nichts weiter sind als eine Aneinanderreihung von Zeichen.
Die inzwischen größte Quelle des Internet für Informationen bzw. Daten ist das World Wide Web (WWW). Es stellt sich als riesige Dokumentenmenge dar, in der Informationen zu finden wie ein Glücksspiel erscheint.
Information Retrieval befaßt sich mit der Problematik der Suche nach spezifischen Informationen in Dokumentenmengen. Dabei sind Modelle zur Repräsentation von Dokumenten, Methoden zur Ähnlichkeitsbestimmung von Anfragen zu Dokumenten und zur Indexierung von Dokumentenmengen sowie die automatische Klassifikation nur einige der Schwerpunkte, auf die dieser Teil der Informatik ausgerichtet ist.
Die genannten Modelle und Methoden finden ihren praktischen Bezug beispielsweise in den Suchmaschinen des World Wide Web, die das Auffinden von Informationen erleichtern sollen. Allerdings stoßen die o. g. Modelle und Methoden immer häufiger an ihre Grenzen, was dadurch deutlich wird, daß Anfragen inzwischen immer spezifischer gestellt werden müssen, um eine überschaubare Ergebnismenge zu erhalten. An dieser Stelle erfährt der Satz ,,Man muß nur die richtige Frage stellen¡` eine Verschiebung der Betonung von ,,nur`` zu ,,richtige``.
Eine möglicher Ausweg aus dieser Misere besteht darin, Dokumente in einem intuitiven, strukturiertem Schema einzuordnen. Hier bieten sich hierarchische Ontologien an, die mit Hilfe einer Baum- oder Graph-Struktur eine Einteilung von Wissens- oder Themengebieten in verschiedene Klassen ermöglichen. Beispiele für derartige Ontologien sind die sogenannten ,,Web-Verzeichnisse`` oder ,,Directories``. Doch auch hier stellt sich ein Problem: ,,Wie werden Dokumente in die Klassen der Ontologie eingeordnet¿`
Diese Frage kann unterschiedlich beantwortet werden:
Für die zuletzt genannte automatische Klassifikation mit Training bietet sich im Fall einer Ontologie eine entsprechende hierarchische Klassifikation an. Da diese prinzipiell jedoch eine Hintereinanderausführung mehrerer ,,flacher`` Klassifikationen entspricht, wird im Rahmen dieser Arbeit lediglich eine solche einfache Klassifikation betrachtet.
Die ,,Sprache des WWW`` ist HTML (Hypertext Markup Language), eine Markup-Sprache, die im wesentlichen der graphischen Strukturierung von Text und Bild dient. Genauso wie HTML ist die Extensible Markup Language (XML) aus der Standardized General Markup Language (SGML) hervorgegangen. XML ist aufgrund seiner Struktur eine Obermenge von HTML, denn es ist möglich, HTML als eine besondere Form von XML zu definieren. Durch seinen dynamischen Charakter ist XML dazu geeignet, Daten verschiedenster Art in eine strukturierte Form zu bringen, so daß sich beispielsweise Datenbankkonzepte auf der Basis von XML etablieren. Seine Dynamik und die Vielfalt möglicher Anwendungen sind es, die XML zu einer immer stärker werdenden Bedeutung verhelfen. In der Konsequenz ist es naheliegend, Mengen von XML-Dokumenten als die Fortsetzung der Menge von HTML-Dokumenten des WWW zu betrachten.