Skip to content

Definition des Daten Dumps

SArndt-TIB edited this page Nov 30, 2020 · 4 revisions

Metadatenkollektion

Kollektion definieren

Es ist empfehlenswert, sich die Kollektion zuerst im TIB-Portal zusammenzustellen. Das bedeutet, die Facettierung zu benutzen oder ggf. die SOLR-Syntax in den Suchschlitz mit zu übernehmen. Dies wird beim Abschicken in einen Link übersetzt. Für annif sind folgende Parameter obligatorisch:

  • Sacherschließungssystematik
    • Basisklassifikation: &tx_tibsearch_search%5Bquery%5D=classificationCode%3Abk*
    • Gemeinsame Normdatei: &tx_tibsearch_search%5Bquery%5D=xmlPath%3Asubject%2F%40type%3Dgnd
    • Lokalklassifikation:
  • Sprache
    • Facette Sprache setzen oder
    • als Linkbestandteil: &tx_tibsearch_search%5BDlanguage%5D%5B0%5D=de

Beispiel: https://www.tib.eu/de/suchen?id=198&tx_tibsearch_search%5Bquery%5D=classificationCode%3Abk%5C%3A*&tx_tibsearch_search%5BDsupplierPrefix%5D%5B0%5D=tibkat&tx_tibsearch_search%5BDlanguage%5D%5B0%5D=de&tx_tibsearch_search%5Bsrt%5D=rank&tx_tibsearch_search%5Bcnt%5D=20

(siehe Kollektion #1 in der Übersicht der Kollektionen)

Die Entwickler von annif schlagen eine Aufteilung von 80/10/10 % für Trainings-, Goldstandard- und Testmenge vor.

Übersetzen der Kollektion in einen OAI-Link

Über den OAI-Server der TIB können Daten-Dumps definiert und heruntergeladen werden. Die Dokumentation dazu befindet sich hier. Es gibt keine befriedigende Übersicht, welche Komponenten sich die OAI-Syntax umformen lassen. In der Regel kann die Syntax aus dem Portallink übernommen werden.

Wahl des XML-Formats

Unsere ersten Tests wurden mit dem TIB-eigenen FTX-XML durchgeführt. Es ist intern verfügbar, jedoch nicht extern. Deswegen haben wir uns für ein offenes Format entschieden, welches alle Informationen für annif enthält: MARC-XML. Im OAI-Link muss das gemäß der Dokumentation angegeben werden. Dies geschieht über den Linkbestandteil metadataPrefix=marcxml.

OAI-Link testen

Wenn der OAI-Link zusammengesetzt ist, wird er im Browser getestet. Bei ungültigen (z. B. FTX von extern angefragt) oder fehlerhaften Links erscheint folgender Inhalt:

image2020-11-14_11-53-53

Ist die Anfrage erfolgreich, erscheinen die Datensätze und unten auf der Seite die Größe der Kollektion sowie ggf. der Link zur nächsten Seite:

image2020-11-14_11-55-57

Vorherige Seite: 1. Vorbereiten der Klassifikation oder des Vokabulars für annif

Nächste Seite: 3. Daten Dump herunterladen

Clone this wiki locally