GitHub

annotations_creators

language

language_creators

license

multilinguality

pretty_name

size_categories

source_datasets

Dataset Description

Link: https://www.kaggle.com/datasets/jarfo1/viquipdia
Main author: José Andrés Rodriguez Fonollosa

Dataset summary

The Wikipedia dataset is a collection of scraped Wikipedia pages. The dataset is defined in catalan language, thus the model will be trained to recognize input exclusively in catalan.

Supported tasks

Text generation

Languages

Catalan

Dataset structure

{
  'ca-2': [
    'ca.wiki.test.tokens',
    'ca.wiki.train.tokens',
    'ca.wiki.valid.tokens']
  'ca-100': [
    'ca.wiki.test.tokens',
    'ca.wiki.train.tokens',
    'ca.wiki.valid.tokens']
  'ca-all': [
    'ca.wiki.test.tokens',
    'ca.wiki.train.tokens',
    'ca.wiki.valid.tokens']
}

Data fields

Plain text

Data splits

	train	validation	test
ca-2	10.64MB	1.07MB	1.06MB
ca-100	528.96MB	1.07MB	1.06MB
ca-all	1.32GB	1.07MB	1.06MB

Name		Name	Last commit message	Last commit date
Latest commit History 8 Commits
Modelcards.md		Modelcards.md
README.md		README.md

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

Dataset Description

Dataset summary

Supported tasks

Languages

Dataset structure

Data fields

Data splits

About

Releases

Packages

Contributors 2

mashazya/TAED2

Folders and files

Latest commit

History

Repository files navigation

Dataset Description

Dataset summary

Supported tasks

Languages

Dataset structure

Data fields

Data splits

About

Resources

Stars

Watchers

Forks

Releases

Packages 0

Contributors 2

Packages