5.1 Schlußfolgerungen

Nächste Seite: 5.2 Ausblick Aufwärts: 5 Zusammenfassung Vorherige Seite: 5 Zusammenfassung Inhalt

5.1 Schlußfolgerungen

Die Ergebnisse der durchgeführten Experimente führen in erster Linie zu der Schlußfolgerung, daß die verwendete Datenbasis für das gewählte Klassifikationskriterium (Filmgenre) nicht geeignet ist. An dieser Stelle bleibt jedoch offen, ob dies der geringen Größe der Datenbasis von 450 Dokumenten zuzuschreiben ist, oder ob generell die Annahme falsch ist, Filme ließen sich mit Hilfe von Informationen über die beteiligten Personen und Firmen, Drehorte, Altersbeschränkungen, etc. in Genres einordnen, demnach überhaupt eine Korrelation der Daten gegeben ist.

Insbesondere das Zuordungsschema der Internet Movie Database, die einen Film mitunter mehreren verschiedenen Genres zuordnet, erwies sich als sehr schädlich für eine zuverlässige Klassifikation. Ein im Vergleich dazu verwendetes eindeutiges Zuordnungsschema erhöhte die gemessene Precision um bis zu 100%. Die Annahme, auf der Basis der Überschneidung von Klassen eine bessere Selektion von tatsächlich relevanten Features durchführen zu können, hat sich somit als falsch erwiesen.

Bemerkenswert ist die schlechte Klassifikationsqualität, die bei der Feature-Selektion über Information Gain bzw. Mutual Information erzielt wurde. In Ermangelung plausibler Erklärungen für diese Tatsache muß dieser Umstand hier offen bleiben.

Die Klassifikation mit Hilfe von ,,strukturierten`` Features stellte sich im Verlauf der Experimente als ähnlich gut wie die Klassifikation auf der Basis von Termen heraus. Eine Erhöhung der Precision konnte jedoch durch diesen Ansatz der Dokumenten-Repräsentation nicht erreicht werden.

Nächste Seite: 5.2 Ausblick Aufwärts: 5 Zusammenfassung Vorherige Seite: 5 Zusammenfassung Inhalt