DAYSTREAM Annotierter Textkorpus von Verkehrsmeldungen (v1_20200511)
Der DAYSTREAM Korpus ist ein Datensatz von 3541 Verkehrsmeldungen, in denen Eigennamen (z.B. Straßen, Linien, Haltestellen), deren Referenzids (z.B. DHID, DLID, OSM-IDs), sowie Relationen (z.B. Stau, Unfall, Schienenersatzverkehr) manuell annotiert sind. Der Datensatz kann als Trainings- bzw. Testkorpus für Informationsextraktionsaufgaben wie Eigennamenerkennung, Entity Linking und Relationsextraktion genutzt werden.
Datensatzstatistiken:
RSS | Total | ||
---|---|---|---|
docs | 2825 | 716 | 3541 |
tokens | 69188 | 34630 | 103818 |
entities | 15280 | 8112 | 23392 |
relations | 365 | 427 | 792 |
docs with annotated relations | 305 | 338 | 643 |
linked entities (org,loc) | 5138 | 3331 | 8469 |
NIL entities | 4764 | 1698 | 6462 |
Der DAYSTREAM Korpus wird unter der CC-BY-NC 4.0 Lizenz veröffentlich. Wenn Sie diese Daten verwenden, sollten Sie folgende Publikation zitieren:
A German Corpus for Fine-Grained Named Entity Recognition and Relation Extraction of Traffic and Industry Events. Martin Schiersch, Veselina Mironova, Maximilian Schmitt, Philippe Thomas, Aleksandra Gabryszak, Leonhard Hennig. Proceedings of LREC, 2018.
Weiterführende Informationen und Details: https://github.com/DFKI-NLP/daystream-corpus/
Herausgeber: Deutsches Forschungszentrum für Künstliche Intelligenz GmbH
Straßen, Bahn
Verkehr, Wissenschaft und Technologie
| Titel | Link | Typ | Datenformat | | Dokumentation und Download | https://github.com/DFKI-NLP/daystream-corpus/ | Dateidownload | Avro/JSON |
Creative Commons Namensnennung - Nicht kommerziell 4.0 International (CC BY-NC 4.0)
DAYSTREAM - Datenanalytik und KI für sichere und zuverlässige Mobilität (mFund Förderkennzeichen 19F2031A-E)
| Datum | Typ | | 15.5.2020 | Erstellung |
von-bis 23.05.2015 - 01.04.2019
einmalig