NER-анотація українського корпусу

Опис даних

Це друга версія українського NER корпусу. Дані першої версії та документацію ви можете знайти тут

Корпус розмічених даних знаходиться в папці v2.0/data. Всього в корпусі:

Первинним джерелом даних є відкритий корпус українських текстів (папка bruk) та тексти видання «Наші гроші» (папка ng). Для кожного обробленого тексту з корпусу наявні два файли:

файл з розширенням txt містить токенізовану версію тексту
файл з розширенням ann містить NER-анотації до цього тексту у форматі Brat Standoff Format (кожний рядок файлу містить 3 записи, розділені табуляцією: номер анотації, початковий і кінцевий індекс в тексті — у даному випадку, токенізованому — через пробіл, текст сутності)

Анотація виконана принаймні двома анотаторами на кожний текст за наступними правилами, розбіжності в результатах виправлені третім редактором.

Для тренування і валідації моделей рекомендовано використовувати Стандартне розбиття на DEV і TEST набори.

Ми надаємо сконвертовані у формат IOB дані з використанням стандартного розбиття. Під час цієї конвертації ми прибрали вкладені теги.

Репозиторій також містить скрипти для конвертації даних у інші формати.

Ці дані доступні для використання згідно умов ліцензії "Creative Commons Attribution-NonCommercial-ShareAlike 4.0 International License"

Name		Name	Last commit message	Last commit date
Latest commit History 154 Commits
databank		databank
doc		doc
models		models
scripts		scripts
test		test
v1.0		v1.0
v2.0		v2.0
.gitignore		.gitignore
README.md		README.md
README_en.md		README_en.md