Tag 6

Zwischenstand vom Kurs

Prinzipiell ist bei unserem Plan alles gleich geblieben. Die einzige kleine Änderung ist, dass nicht “metha” sondern “VuFindHarvest” zum Sammeln der Daten verwendet wird. Es sind aber beides ähnliche Tools, die dem Sammeln von Daten aus Koha (MARC21-XML), ArchivesSpace (EAD) und DSpace (Dublin Core) dienen. Für den Export bietet DSpace zwar auch sehr viele andere Formate, wir nehmen aber Dublin Core. Schlussendlich werden die Daten aber mit MarcEdit einheitlich gemacht und in MARC21-XML gemappt (ausser die Daten von Koha, die nach dem Export schon im richtigen Zielformat sind).

Als Schnittstelle dient OAI-PMH, wie bisher. Alternativen dazu wären Z39.50 oder SRU. Z39.50 ist aber sehr alt und benötigt eine Zusatzsoftware. OAI-PMH ist die neuste Schnittstelle von den dreien, bietet regelmässige Aktualisierungen und ist auf grosse Datenmengen ausgelegt. Aber auch OAI-PMH ist nicht perfekt. In der letzten Unterrichtseinheit hat die Ausgabe einer EAD-Datei über OAI-PMH nicht funktioniert. Dies lag zwar an einem Erschliessungsfehler in der Datei, aus meiner Sicht hätte die Ausgabe über OAI-PMH aber nicht komplett blockiert werden müssen.

Die Suchmaschine, die wir verwenden werden ist Apache Solr. Solr und Elasticsearch sind die zwei am breitesten genutzten Suchmaschinen. Fast alle grossen Internetseiten brauchen eine der beiden.

VuFindHarvest und MarcEdit

Der Hauptteil des heutigen Unterrichtblocks bestand aus zwei Übungen. In Übung 1 mussten wir über VuFindHarvest die Daten aus Koha, ArchivesSpace und DSpace laden. In Übung 2 mussten wir dann die “geernteten” Daten nach MARC21-XML kovertieren. Die Konvertierung von einem Metadatenstandard in einen anderen wird auch Crosswalk genannt. Der Crosswalk klappt aber, wenig überraschend, nur sehr selten verlustfrei. Wir nutzen für den Crosswalk die kostenlos nutzbare Software MarcEdit 7. Die Software (oder genauer ausgedrückt das Software-Paket) zählt aber nicht als Open Source, da der Entwickler Terry Reese allein ist. Updates werden auch nur von ihm gemacht. MarcEdit ist überraschenderweis aus dem Jahr 2006, ich hätte es eher dem 19. oder 20. Jahrhundert zugeordnet ;) Jedenfalls fällt mir als erstes die Handhabung negativ auf. Ein Bug führt beispielsweise dazu, dass alle Linux-Nutzer*innen bei der Kofiguration des Mappings die “\”- durch “/”-Striche ersetzen muss. Ich als Linux-Nutzer mache mich also erst mal ans Werk und ersetze diese Sonderzeichen.

Übung 1 – Harvesting mit VuFindHarvest

Zuerst wird VuFindHarvest 4.0.1 im Terminal installiert. Nun können wir schon die ersten Datensätze sammelnt, die wir anschliessend konvertieren werden. Dies machen wir stets im Ordner “VuFindHarvest 4.0.1”, sonst klappt der Befehl nicht. Nach einigen Versuchen hats mit den folgenden 3 Befehlen geklappt.

Koha-Befehl:

php bin/harvest_oai.php --url=http://bibliothek.meine-schule.org/cgi-bin/koha/oai.pl --metadataPrefix=marcxml koha

ArchivesSpace-Befehl:

php bin/harvest_oai.php --url=http://localhost:8082 --metadataPrefix=oai_ead archivesspace

DSpace-Befehl:

php bin/harvest_oai.php --url=http://demo.dspace.org/oai/request --metadataPrefix=oai_dc --set=com_10673_1 dspace

Bei allen 3 Befehlen wird die OAI-Schnittstelle benutzt. In der Mitte wird jeweils durch eine URL angegeben, wo die Daten liegen, die gesammelt werden sollen. Am Ende der Befehle stehen die Formate der Dateien und der Name des Zielordners.

Übung 2 – Mapping mit MarcEdit

Nun werden die EAD- und DC-Files nach MARC21-XML konvertiert. Der Crosswalk mit MarcEdit ist nicht sehr intuitiv. Dazu kommt noch ein weiterer Stolperstein: EAD muss in einem ersten Schritt zu MARC (Binärformat) konvertiert werden, erst in einem zweiten Schritt ist das Mapping von MARC zu MARCXML möglich. Hier bin ich erneut unzufrieden mit MarcEdit, obwohl ich nicht beurteilen kann, wie einfach die Implementierung einer direkten Mapping-Möglichkeit von EAD zu MARCXML wäre. Ich stelle es mir aber nicht all zu umständlich vor.

Nachdem ich ein bisschen recherchiere, fällt mir auf, wie wenig Literatur zu Crosswalks vorhanden ist. Die meisten Seiten sind fast zehn Jahre alt und referenzieren auf Quellen von Anfang der 2000er-Jahre… Auch zu MarcEdit ist nur sehr wenig Literatur vorhanden und es ist schwierig, eine gute Alternative zu finden. Somit kann ich auch nachvollziehen, warum MarcEdit so breit genutzt wird. Schlussendlich ist man besser bedient, das Mapping durch ein Programm machen zu lassen, als die Felder von Hand zu bearbeiten.

Schlussendlich habe ich doch noch eine Seite gefunden, die ein paar Alternativen zu MarcEdit auflistet:

https://hangingtogether.org/?p=6646

XSLT haben wir für den Crosswalk ja selber genutzt. Mit Excel kann ich mir nicht vorstellen, einen schnellen Crosswalk durchzuführen. Aber es wird offensichtlich genutzt. Einzig OpenRefine tönt für mich vielversprechend – es sei eine unabhängige Open Source-Desktopanwendung zur Datenbereinigung und -transformation. Laut Semesterplan sollten wir OpenRefine im nächsten Unterrichtsblock kennenlernen – ich bin gespannt.