Skip to content

Latest commit

 

History

History
54 lines (38 loc) · 2.15 KB

mcloud.md

File metadata and controls

54 lines (38 loc) · 2.15 KB

Titel

DAYSTREAM Annotierter Textkorpus von Verkehrsmeldungen (v1_20200511)

Beschreibung

Der DAYSTREAM Korpus ist ein Datensatz von 3541 Verkehrsmeldungen, in denen Eigennamen (z.B. Straßen, Linien, Haltestellen), deren Referenzids (z.B. DHID, DLID, OSM-IDs), sowie Relationen (z.B. Stau, Unfall, Schienenersatzverkehr) manuell annotiert sind. Der Datensatz kann als Trainings- bzw. Testkorpus für Informationsextraktionsaufgaben wie Eigennamenerkennung, Entity Linking und Relationsextraktion genutzt werden.

Datensatzstatistiken:

Twitter RSS Total
docs 2825 716 3541
tokens 69188 34630 103818
entities 15280 8112 23392
relations 365 427 792
docs with annotated relations 305 338 643
linked entities (org,loc) 5138 3331 8469
NIL entities 4764 1698 6462

Der DAYSTREAM Korpus wird unter der CC-BY-NC 4.0 Lizenz veröffentlich. Wenn Sie diese Daten verwenden, sollten Sie folgende Publikation zitieren:

A German Corpus for Fine-Grained Named Entity Recognition and Relation Extraction of Traffic and Industry Events. Martin Schiersch, Veselina Mironova, Maximilian Schmitt, Philippe Thomas, Aleksandra Gabryszak, Leonhard Hennig. Proceedings of LREC, 2018.

Weiterführende Informationen und Details: https://github.com/DFKI-NLP/daystream-corpus/

Adressen

Herausgeber: Deutsches Forschungszentrum für Künstliche Intelligenz GmbH

mCLOUD-Felder

mCLOUD Kategorie

Straßen, Bahn

OpenData Kategorie (GovData)

Verkehr, Wissenschaft und Technologie

Downloads

| Titel | Link | Typ | Datenformat | | Dokumentation und Download | https://github.com/DFKI-NLP/daystream-corpus/ | Dateidownload | Avro/JSON |

Lizenz

Creative Commons Namensnennung - Nicht kommerziell 4.0 International (CC BY-NC 4.0)

mFund Projekt

DAYSTREAM - Datenanalytik und KI für sichere und zuverlässige Mobilität (mFund Förderkennzeichen 19F2031A-E)

Zeitbezug

| Datum | Typ | | 15.5.2020 | Erstellung |

durch die Ressource abgedeckte Zeitspanne

von-bis 23.05.2015 - 01.04.2019

Periodizität

einmalig