Implementierung einer automatischen DDC-Klassifikation für die Suchmaschine BASE auf Basis von Annif

Autor/innen

DOI:

https://doi.org/10.11576/kwi-1152

Abstract

Dieser Vortrag präsentiert die Ergebnisse einer Masterarbeit, die im Rahmen des Studiengangs MALIS an der TH Köln verfasst wurde.

In der Suchmaschine BASE werden bereits seit Jahren Dokumente maschinell nach der Dewey Decimal Classification (DDC) erschlossen, es besteht jedoch der Wunsch, das mittlerweile veraltete System zur automatischen Klassifikation zu ersetzen. Zu diesem Zweck war es erforderlich, Daten aus BASE zu gewinnen, die als Trainingsmenge eines maschinellen Lernverfahrens dienen können. Es wird gezeigt, wie mithilfe einer explorativen Analyse aus einem Korpus von über 220 Mio. Dokumenten geeignete Daten extrahiert, kuratiert und zu sprachspezifischen Lernkorpora umgearbeitet wurden. Auf dieser Grundlage wurden mithilfe des Toolkits Annif eine Reihe von Klassifikatoren erstellt, deren Leistungsfähigkeit anschließend evaluiert und ein geeigneter Kandidat ausgewählt. Ein Vergleich zeigt, dass das in dieser Ausarbeitung erstellte System dem zur Zeit im Einsatz befindlichen BASE-Klassifikator weit überlegen ist.

Downloads

Veröffentlicht

2024-06-14

Ausgabe

Rubrik

Vortrag