Tag 6 – Metadaten modellieren und Schnittstellen nutzen (1/2)

Ein neuer Vorlesungstag steht vor der Tür. Dieses Mal geht es um die Modellierung von Metadaten und die Nutzung von entsprechenden Schnittstellen, um Metadaten auszutauschen. In den bisherigen Vorlesungen waren Metadaten bereits ein wichtiger Bestandteil, sei es bei Bibliotheks- und Archivsystemen, wie auch bei Repositorysoftware. Heute soll dieses Thema also vertieft betrachtet werden.

Als erstes jedoch wurden noch zwei andere Fragen geklärt. Zum einen was sogenannte «Persistent Identifier» sind und wie diese vergeben werden. Die wohl bekanntesten Persistent Identifiers sind die sog. «Digital Object Identifier» (DOI), mit welchen digital verfügbaren Ressourcen wie wissenschaftliche Artikel oder Journals ausgezeichnet werden. Die DOIs haben den Vorteil, dass diese technische Veränderungen überstehen, ohne ihre Gültigkeit zu verlieren. Die DOIs werden von verschiedenen Organisationen verwaltet, die Verfügbarkeit der Ressource liegt jedoch in der Verantwortung der Institution, welche die Ressource veröffentlicht. Die zweite Frage bezog sich auf den Sinn von Sub-Communities bei DSpace. Die Dozierenden erklärten dies anhand eines Anschauungsbeispiels ziemlich gut, wie ich fand.

Danach ging es mit dem eigentlichen Thema dieser Vorlesung weiter. Dabei wurde als erstes nochmals auf folgende Darstellung Bezug genommen:

Wie man sieht, haben wir bereits vieles davon kennengelernt, sowohl auf Seiten der Systeme als auch bei den Metadatenstandards. Was nun noch fehlt, ist die Verbindung dazwischen. Die oben gezeigte Schnittstelle OAI-PMH haben wir bereits bei der letzten Übung gesehen. Weitere Protokolle, mit welchen Metadaten zwischen Systemen übertragen werden, sind Z39.50 und SRU. Diese eignen sich vor allem für die Abfrage von spezifischen Metadaten und bei Live-Abfragen. Bei grösseren Datenmengen ist OAI-PMH der gängige Standard. Was nun noch fehlt, ist das Tool für das Harvesting, das «Ernten» der Metadaten. Hierfür wurde uns das Tool «VuFindHarvest», mit welchem Metadaten von OAI-PMH-Schnittstellen bezogen werden können, vorgestellt. Dazu musste wiederum eine Installation auf der virtuellen Maschine vorgenommen werden. Nachdem dies geschehen war, konnte die Ernte beginnen. Dafür musste man folgenden Befehl in der Shell nutzen:

php bin/harvest_oai.php –url=http://example.com/oai_server – metadataPrefix=oai_dc my_target_dir

Natürlich musste man den Befehl noch auf die eigene Abfrage anpassen. Dafür musste man die URL des Systems, den Metadatenstandard der Daten, sowie den Ablageort, wo man die geernteten Daten haben möchte, ändern. In unserer Übung sollten wir Metadaten von Koha und Archivespace abfragen. Hier hatte ich anfangs etwas Mühe, da ich keinen separaten Ablageordner erstellt hatte, nach einiger Zeit aber hatte ich das Prinzip verstanden.

Der zweite grosse Aspekt dieser Vorlesung waren sogenannte «Crosswalks», die Konvertierung von einem Metadatenformat in ein anderes. Die grosse Herausforderung hierbei ist, dass diese Konvertierung verlustfrei geschieht, was leider nicht immer der Fall ist. Umgesetzt wird dies mittels der Programmiersprache «XSLT». Als Tool hierfür nutzten wir die Open-Source-Software «MarcEdit 7», welche sehr häufig im Umgang mit MARC21 eingesetzt wird, passend zum obigen Schaubild. Da wir es bei uns mit einer Linux-Distribution zu tun hatten, mussten wir erst noch einige Konfigurationen vornehmen, damit das Tool in dieser Umgebung auch richtig funktionierte. Anschliessend sollten wir selbstständig die zuvor bearbeiteten Daten aus Archivespace, sowie DSpace, in MARC21XML konvertieren. Aus Bequemlichkeit entschied ich mich dazu, die alternativ bereitgestellten Beispielsdaten zu nutzen. Für die Konvertierung der EAD-Daten war ein Zwischenschritt nötig (EAD -> MARC21, MARC21 -> MARC21XML). Dies funktionierte gut, das Prinzip dahinter war verständlich.

So, dass war es für heute, bis zum nächsten Mal 😊