Tag 7 – Metadaten modellieren und Schnittstellen nutzen (2/2)

Der siebte Vorlesungstag stand ganz im Zeichen des zweiten Teils des Themenblocks «Metadaten modellieren und Schnittstellen nutzen». Heute ging es in erster Linie darum, Metadaten zu transformieren. Diesem Vorlesungsblock konnte ich aufgrund von einer Terminüberschneidung leider nicht live beiwohnen. Ich habe mir deshalb im Nachhinein die Aufzeichnung der Vorlesung angeschaut. Wie ich dies erlebt habe, werde ich euch im folgenden Beitrag erzählen.

Bei der Transformation von Metadaten geht es darum, Metadaten zu bearbeiten, im Sinne von diese zu analysieren, zu bereinigen, zu vereinheitlichen, und anzureichern. Als Tool hierfür wurde uns die Open-Source-Software «OpenRefine» vorgestellt. Selbst bezeichnen die Hersteller diese als «A free open source, powerful tool for working with messy data». Diese Definition beschreibt ein äusserst umfassendes Datentransformationstool, welches weit über den Bibliotheks-/Archivkontext hinaus reicht. OpenRefine unterstützt eine Vielzahl von gängigen Tabellenformaten, wie .csv und .xsl. Auch Metadatenformate werden, jedoch sehr unterschiedlich, unterstützt. So können komplexe Formate mit Hierarchien, wie EAD, nur mit Hilfe von Zusatztools transformiert werden. Zudem kann OpenRefine auch in Kombination mit MarcEdit genutzt werden, um MARC21-Daten zu analysieren und zu untersuchen.

Anschliessend sollten wir OpenRefine auf unserer virtuellen Maschine installieren. Die Anleitung dazu wurde von den Dozierenden gegeben. Diese habe ich Schritt für Schritt nachgearbeitet, was von Erfolg gekrönt war. Unter localhost, Port 3333 konnte ich auf OpenRefine zugreifen. Auf den ersten Blick bot die Software ein sehr übersichtliches Interface. Auf der linken Seite befindet sich eine Menüstruktur, mit welcher man ein neues Projekt anlegen, ein bereits bestehendes Projekt öffnen, oder ein Projekt importieren kann. Wählt man die erste Option aus, kann man direkt die Quelle wählen, von wo man die Daten hochladen möchte. Die Usability dieses Tools hinterliess einen positiven ersten Eindruck!

Der nächste Teil umfasste einen praktischen Teil mit verschiedenen Übungsaufgaben zur Transformation von Metadaten. Die erste Übung umfasste das Laden von Beispielsdaten, gemäss der oben bereits beschriebenen Vorgehensweise. Die Daten wurden dabei über eine URL, als CSV-Datei geladen. Die geladenen Daten wurden wie folgt dargestellt:

In der nächsten Übung (bzw. Vorführung) ging es darum, verschiedene Basisfunktionen, wie die Facetten, Ordnungs- und Filterfunktionen kennenzulernen. Die Facetten scheinen hierbei eine der wichtigsten Funktionen zu sein. Diese erlauben es, Mittels der Facetten ist es ausserdem möglich, Daten direkt zu bearbeiten bzw. zu bereinigen, wie anhand eines Anschauungsbeispiels dargestellt wurde. Interessant fand ich auch die Undo-Funktion, welche einem Anfänger wie mir, im Arbeitsalltag sicherlich sehr nützlich wäre.

Die grosse Übung des Tages, welche schlussendlich als Vorführung durch die Dozierenden durchgeführt wurde, war die Transformation von CSV-Daten in MARCXML. Diese Übung erinnerte mich an jene aus der vorherigen Vorlesung. Um dies zu gewerkstelligen, wurde die Funktion «Templating-Exporter» verwendet. Hierbei wird ein Template mit den entsprechenden Daten erstellt, welches in einem zweiten Schritt mit den benötigten Transformationsregeln ergänzt wurde. Als letztes musste man dies noch exportieren und validieren, bevor man das fertige Schema herunterladen konnte.

Im Anschluss an die Vorlesung bestand der Auftrag, neben der Übung, die Software «VuFind» zu installieren. VuFind ist eine Suchsoftware, welche explizit für Bibliotheken entwickelt wurde. Da ich diese Vorlesung erst im Nachhinein durcharbeite, hatte ich die Software nicht rechtzeitig für die nächste Lektion installiert. Dies habe ich nun nachgeholt. Im Artikel zur nächsten Vorlesung werde ich im Detail auf diese Software eingehen.