2.3 Automatische Klassifikation

Nächste Seite: 2.3.1 Naive-Bayes-Klassifikation Aufwärts: 2 Theoretische Grundlagen Vorherige Seite: 2.2 Hierarchische Ontologien Inhalt

2.3 Automatische Klassifikation

Ziel der (automatischen) Klassifikation ist es, Dokumente in unterschiedliche konkurrierende Klassen einzuordnen, insbesondere in hierarchische Ontologien. Das Klassifikationsproblem kann sich unterschiedlich darstellen, nämlich

binär mit der Fragestellung, ob ein Dokument in eine Klasse c einzuordnen ist oder nicht;
mehrstellig mit k Klassen $c_1, \ldots, c_k$ und der Frage, in welche dieser Klassen ein Dokument am besten einzuordnen ist.

Dient die Klassifikation der Einordnung in eine hierarchische Ontologie, d. h. wird die Klassifikation mehrfach durchgeführt auf der Basis von (nicht notwendigerweise binären ) ,,Entscheidungsbäumen``, so spricht man von hierarchischer Klassifikation, wobei in jedem Schritt entweder eine binäre oder eine mehrstellige Klassifikation durchgeführt wird. Da Dokumente nicht notwendigerweise den Themen der Blattknoten der zugrunde liegenden Struktur zugeordnet werden müssen, stellt sich hierbei die Frage der Terminierung, unter welchen Umständen also keine weitere Klassifikation stattfindet. Üblicherweise wird zu diesem Zweck, je nach Art des verwendeten Klassifikators, ein Schwellenwert eingeführt, der das Mindestmaß an ,,Klassifikationsgüte`` angibt. Wird aufgrund dieses Schwellwertes eine Klassifikation nicht als genügend zuverlässig erachtet, so wird die hierarchische Klassifikation mit der zuletzt zugeordneten Klasse beendet.

Des weiteren gibt es unterschiedliche Ausgangssituationen:

Klassen sind bekannt und Trainingsdaten vorhanden:
In diesem Fall kann mit Hilfe der vorhandenen Trainingsdaten ein Klassifikator berechnet werden, der dann auf Basis dieser Berechnung neue Dokumente klassifiziert.
Klassen sind nicht von vornherein bekannt:
Wenn dies der Fall ist, so ist es notwendig, Dokumente in Bezug auf ihre Ähnlichkeit mit anderen Dokumenten zu betrachten (Clustering).

In der vorliegenden Arbeit wird ausschließlich der Fall der automatische Klassifikation mit Training betrachtet. Für diese Art der Klassifikation gibt es viele verschiedene Verfahren, von denen im folgenden drei kurz vorgestellt werden sollen:

Naive-Bayes-Klassifikation (2.3.1)
k-Nearest-Neighbor-Klassifikation (2.3.2)
Klassifikation mittels Support Vector Machines (2.3.3)

Unterabschnitte

Nächste Seite: 2.3.1 Naive-Bayes-Klassifikation Aufwärts: 2 Theoretische Grundlagen Vorherige Seite: 2.2 Hierarchische Ontologien Inhalt