Aggregation verteilter Online-Server mit strukturierten Metadaten; am Beispiel von BASE und DRIVER

Autor/innen

  • Friedrich Summann Universitätsbibliothek Bielefeld

DOI:

https://doi.org/10.4119/kwi-619

Abstract

Das OAI-PMH-Protocol (Open Archives Initiative – Protocol for Metadata Harvesting) zeichnet sich durch Einfachheit, Robustheit und viele Freiheiten und Unschärfen aus. Die für BASE an der UB-Bielefeld geschaffene Harvesting-Umgebung ist Perl-basiert, läuft unter Shellskripten, die mit Konfigurationsdateien überwiegend durch cronjob gesteuertes periodisches Harvesten vornehmen. Die Aggregation (Filterung, Qualitätsverbesserung) der geholten Metadaten erfolgt bei BASE im Pre-Processing im FAST-Kontext. Für BASE sind inzwischen mehr als 2000 OAI-Repositories prozessiert worden; aktiviert davon sind knapp 1400 mit knapp 22 Mill. Dokumenten. Zur Ermittlung neuer Schnittstellen werden vor allem automatisch unterstützt die bekannten OAI-Registries analysiert. Dazu kommen die Beobachtung von anderen OAI-Service-Providern und Auflistungen (solche liegen bezogen auf Land, Communities, Disziplinen vor) und persönliche Kontakte. Die Aggregation der zusammengetragenen Daten erfolgt zur Korrektur von Fehlern, zur Normalisierung von Feldinhalten (insbes. language, type, date) und zur Extraktion von spezifischer Information (DDC-Klassifikation-Codes). Im DRIVER-Kontext sind auf Basis der BASE-Technologie und Erfahrungen das Modul Harvesting/Aggregating von der UB Bielefeld entwickelt worden, das mit den ebenfalls in Bielefeld entwickelten Modulen MDStore (zur Speicherung der originalen und aggregierten Metadaten) und Index das Rückgrat des Datenprocessing bildet. Bei DRIVER wurden bisher mit dieser Technik knapp 250 Repositories mit vergleichsweise hohem Qualitätslevel bearbeitet und integriert. Die aus der OAI-Praxis abgeleiteten OAI-PMH-Empfehlungen und -Anforderungen wurden unter Beteiligung der UB Bielefeld in den DRIVER Guidelines zusammengestellt.

Downloads

Veröffentlicht

2009-11-20

Ausgabe

Rubrik

Vortrag