Ziel der (automatischen) Klassifikation ist es, Dokumente in unterschiedliche konkurrierende Klassen einzuordnen, insbesondere in hierarchische Ontologien. Das Klassifikationsproblem kann sich unterschiedlich darstellen, nämlich
Dient die Klassifikation der Einordnung in eine hierarchische Ontologie, d. h. wird die Klassifikation mehrfach durchgeführt auf der Basis von (nicht notwendigerweise binären ) ,,Entscheidungsbäumen``, so spricht man von hierarchischer Klassifikation, wobei in jedem Schritt entweder eine binäre oder eine mehrstellige Klassifikation durchgeführt wird. Da Dokumente nicht notwendigerweise den Themen der Blattknoten der zugrunde liegenden Struktur zugeordnet werden müssen, stellt sich hierbei die Frage der Terminierung, unter welchen Umständen also keine weitere Klassifikation stattfindet. Üblicherweise wird zu diesem Zweck, je nach Art des verwendeten Klassifikators, ein Schwellenwert eingeführt, der das Mindestmaß an ,,Klassifikationsgüte`` angibt. Wird aufgrund dieses Schwellwertes eine Klassifikation nicht als genügend zuverlässig erachtet, so wird die hierarchische Klassifikation mit der zuletzt zugeordneten Klasse beendet.
Des weiteren gibt es unterschiedliche Ausgangssituationen:
In diesem Fall kann mit Hilfe der vorhandenen Trainingsdaten ein Klassifikator berechnet werden, der dann auf Basis dieser Berechnung neue Dokumente klassifiziert.
Wenn dies der Fall ist, so ist es notwendig, Dokumente in Bezug auf ihre Ähnlichkeit mit anderen Dokumenten zu betrachten (Clustering).
In der vorliegenden Arbeit wird ausschließlich der Fall der automatische Klassifikation mit Training betrachtet. Für diese Art der Klassifikation gibt es viele verschiedene Verfahren, von denen im folgenden drei kurz vorgestellt werden sollen: