-
Notifications
You must be signed in to change notification settings - Fork 0
Definition des Daten Dumps
Es ist empfehlenswert, sich die Kollektion zuerst im TIB-Portal zusammenzustellen. Das bedeutet, die Facettierung zu benutzen oder ggf. die SOLR-Syntax in den Suchschlitz mit zu übernehmen. Dies wird beim Abschicken in einen Link übersetzt. Für annif sind folgende Parameter obligatorisch:
- Sacherschließungssystematik
- Basisklassifikation: &tx_tibsearch_search%5Bquery%5D=classificationCode%3Abk*
- Gemeinsame Normdatei: &tx_tibsearch_search%5Bquery%5D=xmlPath%3Asubject%2F%40type%3Dgnd
- Lokalklassifikation:
- Sprache
- Facette Sprache setzen oder
- als Linkbestandteil: &tx_tibsearch_search%5BDlanguage%5D%5B0%5D=de
(siehe Kollektion #1 in der Übersicht der Kollektionen)
Die Entwickler von annif schlagen eine Aufteilung von 80/10/10 % für Trainings-, Goldstandard- und Testmenge vor.
Über den OAI-Server der TIB können Daten-Dumps definiert und heruntergeladen werden. Die Dokumentation dazu befindet sich hier. Es gibt keine befriedigende Übersicht, welche Komponenten sich die OAI-Syntax umformen lassen. In der Regel kann die Syntax aus dem Portallink übernommen werden.
Unsere ersten Tests wurden mit dem TIB-eigenen FTX-XML durchgeführt. Es ist intern verfügbar, jedoch nicht extern. Deswegen haben wir uns für ein offenes Format entschieden, welches alle Informationen für annif enthält: MARC-XML. Im OAI-Link muss das gemäß der Dokumentation angegeben werden. Dies geschieht über den Linkbestandteil metadataPrefix=marcxml.
Wenn der OAI-Link zusammengesetzt ist, wird er im Browser getestet. Bei ungültigen (z. B. FTX von extern angefragt) oder fehlerhaften Links erscheint folgender Inhalt:
Ist die Anfrage erfolgreich, erscheinen die Datensätze und unten auf der Seite die Größe der Kollektion sowie ggf. der Link zur nächsten Seite:
Vorherige Seite: 1. Vorbereiten der Klassifikation oder des Vokabulars für annif
Nächste Seite: 3. Daten Dump herunterladen