Für die Bewertung der Qualität eines Retrievalsystems wird in der Regel die Relevanz der Antwortdokumente herangezogen, wobei davon ausgegangen wird, daß ein Dokument entweder relevant oder irrelevant ist, d. h. daß die Relevanzskala also binär ist. Gebräuchliche Retrievalmaße sind Precision, Recall und Fallout. Ausgehend von einer Menge ALL von Dokumenten einer Datenbasis, einer Menge GEF von gefundenen Dokumenten zu einer Anfrage und einer Menge REL von relevanten Dokumenten einer Datenbasis zu einer Anfrage lassen sich diese Maße wie folgt definieren:
Precision läßt sich in Worten folglich beschreiben als die Prozentzahl von gefundenen Dokumenten, die relevant sind, während Recall die Prozentzahl von relevanten Dokumenten bezeichnet, die tatsächlich gefunden wurden. Precision läßt sich leicht berechnen, während Recall im allgemeinen nur abschätzbar ist, da die Mächtigkeit der Menge REL in der Regel nicht mit akzeptablem Aufwand zu ermitteln ist. (Hierbei wird eine genügend große Datenbasis vorausgesetzt.) Für beide Maße ist die gemessene Qualität proportional zum jeweiligen Wert. Fallout bezeichnet die Prozentzahl von nicht relevanten Dokumenten, die gefunden wurden, und ist somit umgekehrt proportional zur Retrievalqualität. Bei der Bewertung der Retrievalqualität spielt der Fallout meist eine untergeordnete Rolle, da das eigentliche Interesse dem Finden von relevanten Dokumenten gilt.
Ein gebräuchlicher Ansatz, Precision (p) und Recall (r) zu kombinieren ist das
-Maß,
das wie folgt definiert ist (vgl. [YL99]):