Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

Closes #63 | Create dataloader for MongabayConservation #538

Open
wants to merge 3 commits into
base: master
Choose a base branch
from

Conversation

megasiska86
Copy link

Please name your PR title and the first line of PR message after the issue it will close. You can use the following examples:

Title: Closes #63| Add/Update Dataloader Mongabay

First line PR Message: Closes #63

where you replace the {ISSUE_NUMBER} with the one corresponding to your dataset.

Checkbox

  • Confirm that this PR is linked to the dataset issue.
  • Create the dataloader script seacrowd/sea_datasets/{my_dataset}/{my_dataset}.py (please use only lowercase and underscore for dataset folder naming, as mentioned in dataset issue) and its __init__.py within {my_dataset} folder.
  • Provide values for the _CITATION, _DATASETNAME, _DESCRIPTION, _HOMEPAGE, _LICENSE, _LOCAL, _URLs, _SUPPORTED_TASKS, _SOURCE_VERSION, and _SEACROWD_VERSION variables.
  • Implement _info(), _split_generators() and _generate_examples() in dataloader script.
  • Make sure that the BUILDER_CONFIGS class attribute is a list with at least one SEACrowdConfig for the source schema and one for a seacrowd schema.
  • Confirm dataloader script works with datasets.load_dataset function.
  • Confirm that your dataloader script passes the test suite run with python -m tests.test_seacrowd seacrowd/sea_datasets/<my_dataset>/<my_dataset>.py or python -m tests.test_seacrowd seacrowd/sea_datasets/<my_dataset>/<my_dataset>.py --subset_id {subset_name_without_source_or_seacrowd_suffix}.
  • If my dataset is local, I have provided an output of the unit-tests in the PR (please copy paste). This is OPTIONAL for public datasets, as we can test these without access to the data files.

Copy link
Collaborator

@jensan-1 jensan-1 left a comment

Choose a reason for hiding this comment

The reason will be displayed to describe this comment to others. Learn more.

Hello @megasiska86, thank you for implementing the dataloader for MongabayConservation.

Tested and works fine! Just some minor fix to the nits, which are provided in the suggestion.
Also, it's okay to remove the README.md as the instruction to call the data will be provided in the SEACrowd catalogue later.

(positive, neutral, negative) based on related topics.
"""

_HOMEPAGE = ""
Copy link
Collaborator

Choose a reason for hiding this comment

The reason will be displayed to describe this comment to others. Learn more.

Suggested change
_HOMEPAGE = ""
_HOMEPAGE = "https://huggingface.co/datasets/Datasaur/mongabay-experiment"


_HOMEPAGE = ""

_LICENSE = "The Unlicense (unlicense)"
Copy link
Collaborator

Choose a reason for hiding this comment

The reason will be displayed to describe this comment to others. Learn more.

Suggested change
_LICENSE = "The Unlicense (unlicense)"
_LICENSE = Licenses.UNLICENSE.value


from seacrowd.utils import schemas
from seacrowd.utils.configs import SEACrowdConfig
from seacrowd.utils.constants import Tasks
Copy link
Collaborator

Choose a reason for hiding this comment

The reason will be displayed to describe this comment to others. Learn more.

Suggested change
from seacrowd.utils.constants import Tasks
from seacrowd.utils.constants import Tasks, Licenses

@akhdanfadh
Copy link
Collaborator

akhdanfadh commented Mar 28, 2024

Here is my general review of the dataloader:

  1. Why do you use t2t schema? It is clearly not a 'text-to-text' task. Instead, it is a labeling task, either to tags or sentiments. Thus, please use text schema and pass the label names for tags or sentiments to the label_names argument. Also, the task is not Tasks.PARAPHRASING.
  2. Even if you use t2t schema, the loaded data does not match the data type that should be (see the test result below). For example, the label field should be an array and not a string.

Here are my comments of the dataset:

  1. The HF URL in the datasheet for this dataloader (Create dataset loader for MongabayConservationDataset #63) is mongabay-experiment in which the provided field on that dataset is for sentiment classification only. Yet, in this dataloader, you add tags classification by providing another HF URL and use another HF URL for the sentiment classification. I understand that the tags classification is also in the paper, so what do you think @holylovenia @jen-santoso ? Updating the datasheet URL to each task's dataset or just sticking to the sentiment task?
  2. Though this is not about the dataloader, as a data constructor yourself, please provide information on your HF data card. It is difficult to understand what the label field corresponds to. For example, sentiment label (softmaxed) corresponds to ['negative', 'neutral', 'positive'], etc.

tag-classification test result

INFO:__main__:Dataset sample [source]
{'text': 'Pandemi, Momentum bagi Negara Serius Lindungi Hak Masyarakat Adat | [CLS] \xa0\xa0\xa0\xa0Hutan adalah gudang segala ada bagi masyarakat adat. Mau cari bahan pangan, obat, sampai segala perlengkapkan ritual budaya, semua ada di hutan. Pandemi Coronavirus Disease 2019 (COVID-19) ini, memperlihatkan, masyarakat adat yang memiliki hutan dan terjaga tahan terhadap krisis kesehatan ini. Mereka punya sumber pangan dan obat-obatan. Untuk itu, masa pandemi ini hendaknya jadi pendorong pemerintah serius memberikan kepastian pengakuan dan perlindungan hak kepada masyarakat adat, antara lain lewat pengesahan RUU Masyarakat Adat.Apai Janggut, tokoh adat dari sekaligus kepala rumah panjang Sungai Utik mengatakan, dalam situasi krisis ini, masyarakat masih memiliki hutan yang jadi supermarket. Di sana, ada bahan pangan dan obat-obatan yang sudah ada turun temurun. Mereka tidak merasa kesulitan.“Kami tidak mau hutan kami rusak, tak mau air kami tercemar dan meminum limbah. Karena sungai adalah ibu kami dan hutan adalah bapak kami,” katanya dalam Bahasa asli Dayak Iban dalam diskusi Hari Masyarakat Adat Sedunia (HIMAS) 2020, 9 Agustus.Untuk itulah, mereka terus kuat menjaga dan melindungi wilayah adat dari kerusakan termasuk oleh perusahaan.Baca juga: Cerita Perempuan Adat Hadapi PandemiSetiap 9 Agustus, dunia memperingati Hari Masyarakat Adat Sedunia (HIMAS). Tahun ini, HIMAS berlangsung di tengah pandemi corona. Di masa ini, PBB angkat tema,” Masyarakat Adat dan COVID-19.” Di Indonesia, Aliansi Masyarakat Adat Nusantara (AMAN) beri tema “COVID-19 dan Resiliensi Masyarakat Adat sebagai cermin dari situasi yang dihadapi oleh masyarakat adat.”Rukka Sombolingi, Sekretaris Jenderal AMAN mengatakan, situasi saat ini jadi sejarah baru, dimana kapitalisme sedang mengalami krisis sangat besar.“Paradigma pembangunan yang mengandalkan ekonomi-politik neoliberalisme yang dipraktikkan rezim kapitalisme global gagal total. Gagal membangun kesejahteraan bagi kita semua,” katanya.',
'label': '[0.1111111119389534, 0.0, 0.0, 0.0, 0.1111111119389534, 0.0, 0.0, 0.0, 0.0, 0.1111111119389534, 0.1111111119389534, 0.0, 0.1111111119389534, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.1111111119389534, 0.0, 0.1111111119389534, 0.0, 0.1111111119389534, 0.0, 0.0, 0.1111111119389534, 0.0, 0.0, 0.0]'}
INFO:__main__:Dataset sample [seacrowd_t2t]
{'id': '0',
'text_1': 'Pandemi, Momentum bagi Negara Serius Lindungi Hak Masyarakat Adat | [CLS] \xa0\xa0\xa0\xa0Hutan adalah gudang segala ada bagi masyarakat adat. Mau cari bahan pangan, obat, sampai segala perlengkapkan ritual budaya, semua ada di hutan. Pandemi Coronavirus Disease 2019 (COVID-19) ini, memperlihatkan, masyarakat adat yang memiliki hutan dan terjaga tahan terhadap krisis kesehatan ini. Mereka punya sumber pangan dan obat-obatan. Untuk itu, masa pandemi ini hendaknya jadi pendorong pemerintah serius memberikan kepastian pengakuan dan perlindungan hak kepada masyarakat adat, antara lain lewat pengesahan RUU Masyarakat Adat.Apai Janggut, tokoh adat dari sekaligus kepala rumah panjang Sungai Utik mengatakan, dalam situasi krisis ini, masyarakat masih memiliki hutan yang jadi supermarket. Di sana, ada bahan pangan dan obat-obatan yang sudah ada turun temurun. Mereka tidak merasa kesulitan.“Kami tidak mau hutan kami rusak, tak mau air kami tercemar dan meminum limbah. Karena sungai adalah ibu kami dan hutan adalah bapak kami,” katanya dalam Bahasa asli Dayak Iban dalam diskusi Hari Masyarakat Adat Sedunia (HIMAS) 2020, 9 Agustus.Untuk itulah, mereka terus kuat menjaga dan melindungi wilayah adat dari kerusakan termasuk oleh perusahaan.Baca juga: Cerita Perempuan Adat Hadapi PandemiSetiap 9 Agustus, dunia memperingati Hari Masyarakat Adat Sedunia (HIMAS). Tahun ini, HIMAS berlangsung di tengah pandemi corona. Di masa ini, PBB angkat tema,” Masyarakat Adat dan COVID-19.” Di Indonesia, Aliansi Masyarakat Adat Nusantara (AMAN) beri tema “COVID-19 dan Resiliensi Masyarakat Adat sebagai cermin dari situasi yang dihadapi oleh masyarakat adat.”Rukka Sombolingi, Sekretaris Jenderal AMAN mengatakan, situasi saat ini jadi sejarah baru, dimana kapitalisme sedang mengalami krisis sangat besar.“Paradigma pembangunan yang mengandalkan ekonomi-politik neoliberalisme yang dipraktikkan rezim kapitalisme global gagal total. Gagal membangun kesejahteraan bagi kita semua,” katanya.',
'text_2': '[0.1111111119389534, 0.0, 0.0, 0.0, 0.1111111119389534, 0.0, 0.0, 0.0, 0.0, 0.1111111119389534, 0.1111111119389534, 0.0, 0.1111111119389534, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.1111111119389534, 0.0, 0.1111111119389534, 0.0, 0.1111111119389534, 0.0, 0.0, 0.1111111119389534, 0.0, 0.0, 0.0]',
'text_1_name': 'text',
'text_2_name': 'weak_label'}

sentiment-classification test result

INFO:__main__:Dataset sample [source]
{'text': 'Pandemi, Momentum bagi Negara Serius Lindungi Hak Masyarakat Adat | [CLS] \xa0\xa0\xa0\xa0Hutan adalah gudang segala ada bagi masyarakat adat. Mau cari bahan pangan, obat, sampai segala perlengkapkan ritual budaya, semua ada di hutan. Pandemi Coronavirus Disease 2019 (COVID-19) ini, memperlihatkan, masyarakat adat yang memiliki hutan dan terjaga tahan terhadap krisis kesehatan ini. Mereka punya sumber pangan dan obat-obatan. Untuk itu, masa pandemi ini hendaknya jadi pendorong pemerintah serius memberikan kepastian pengakuan dan perlindungan hak kepada masyarakat adat, antara lain lewat pengesahan RUU Masyarakat Adat.Apai Janggut, tokoh adat dari sekaligus kepala rumah panjang Sungai Utik mengatakan, dalam situasi krisis ini, masyarakat masih memiliki hutan yang jadi supermarket. Di sana, ada bahan pangan dan obat-obatan yang sudah ada turun temurun. Mereka tidak merasa kesulitan.“Kami tidak mau hutan kami rusak, tak mau air kami tercemar dan meminum limbah. Karena sungai adalah ibu kami dan hutan adalah bapak kami,” katanya dalam Bahasa asli Dayak Iban dalam diskusi Hari Masyarakat Adat Sedunia (HIMAS) 2020, 9 Agustus.Untuk itulah, mereka terus kuat menjaga dan melindungi wilayah adat dari kerusakan termasuk oleh perusahaan.Baca juga: Cerita Perempuan Adat Hadapi PandemiSetiap 9 Agustus, dunia memperingati Hari Masyarakat Adat Sedunia (HIMAS). Tahun ini, HIMAS berlangsung di tengah pandemi corona. Di masa ini, PBB angkat tema,” Masyarakat Adat dan COVID-19.” Di Indonesia, Aliansi Masyarakat Adat Nusantara (AMAN) beri tema “COVID-19 dan Resiliensi Masyarakat Adat sebagai cermin dari situasi yang dihadapi oleh masyarakat adat.”Rukka Sombolingi, Sekretaris Jenderal AMAN mengatakan, situasi saat ini jadi sejarah baru, dimana kapitalisme sedang mengalami krisis sangat besar.“Paradigma pembangunan yang mengandalkan ekonomi-politik neoliberalisme yang dipraktikkan rezim kapitalisme global gagal total. Gagal membangun kesejahteraan bagi kita semua,” katanya.',
'tags': "['Aparatur Sipil Negara' 'masyarakat desa' 'konflik' 'perusahaan'\n 'tambang']",
'label': '[1.0, 1.4414156535025313e-09, 1.3204033422198336e-09]'}
INFO:__main__:Dataset sample [seacrowd_t2t]
{'id': '0',
'text_1': 'Pandemi, Momentum bagi Negara Serius Lindungi Hak Masyarakat Adat | [CLS] \xa0\xa0\xa0\xa0Hutan adalah gudang segala ada bagi masyarakat adat. Mau cari bahan pangan, obat, sampai segala perlengkapkan ritual budaya, semua ada di hutan. Pandemi Coronavirus Disease 2019 (COVID-19) ini, memperlihatkan, masyarakat adat yang memiliki hutan dan terjaga tahan terhadap krisis kesehatan ini. Mereka punya sumber pangan dan obat-obatan. Untuk itu, masa pandemi ini hendaknya jadi pendorong pemerintah serius memberikan kepastian pengakuan dan perlindungan hak kepada masyarakat adat, antara lain lewat pengesahan RUU Masyarakat Adat.Apai Janggut, tokoh adat dari sekaligus kepala rumah panjang Sungai Utik mengatakan, dalam situasi krisis ini, masyarakat masih memiliki hutan yang jadi supermarket. Di sana, ada bahan pangan dan obat-obatan yang sudah ada turun temurun. Mereka tidak merasa kesulitan.“Kami tidak mau hutan kami rusak, tak mau air kami tercemar dan meminum limbah. Karena sungai adalah ibu kami dan hutan adalah bapak kami,” katanya dalam Bahasa asli Dayak Iban dalam diskusi Hari Masyarakat Adat Sedunia (HIMAS) 2020, 9 Agustus.Untuk itulah, mereka terus kuat menjaga dan melindungi wilayah adat dari kerusakan termasuk oleh perusahaan.Baca juga: Cerita Perempuan Adat Hadapi PandemiSetiap 9 Agustus, dunia memperingati Hari Masyarakat Adat Sedunia (HIMAS). Tahun ini, HIMAS berlangsung di tengah pandemi corona. Di masa ini, PBB angkat tema,” Masyarakat Adat dan COVID-19.” Di Indonesia, Aliansi Masyarakat Adat Nusantara (AMAN) beri tema “COVID-19 dan Resiliensi Masyarakat Adat sebagai cermin dari situasi yang dihadapi oleh masyarakat adat.”Rukka Sombolingi, Sekretaris Jenderal AMAN mengatakan, situasi saat ini jadi sejarah baru, dimana kapitalisme sedang mengalami krisis sangat besar.“Paradigma pembangunan yang mengandalkan ekonomi-politik neoliberalisme yang dipraktikkan rezim kapitalisme global gagal total. Gagal membangun kesejahteraan bagi kita semua,” katanya.',
'text_2': '[1.0, 1.4414156535025313e-09, 1.3204033422198336e-09]',
'text_1_name': 'text',
'text_2_name': 'weak_label'}

Copy link
Collaborator

@akhdanfadh akhdanfadh left a comment

Choose a reason for hiding this comment

The reason will be displayed to describe this comment to others. Learn more.

Some nitpicks

),
]

DEFAULT_CONFIG_NAME = f"{_DATASETNAME}_source"
Copy link
Collaborator

@akhdanfadh akhdanfadh Mar 28, 2024

Choose a reason for hiding this comment

The reason will be displayed to describe this comment to others. Learn more.

This should be one of the config name defined previously.

_HOMEPAGE = ""

_LICENSE = "The Unlicense (unlicense)"

Copy link
Collaborator

Choose a reason for hiding this comment

The reason will be displayed to describe this comment to others. Learn more.

Suggested change
_LOCAL = False

@holylovenia
Copy link
Contributor

holylovenia commented Apr 1, 2024

Here are my comments of the dataset:

  1. The HF URL in the datasheet for this dataloader (Create dataset loader for MongabayConservationDataset #63) is mongabay-experiment in which the provided field on that dataset is for sentiment classification only. Yet, in this dataloader, you add tags classification by providing another HF URL and use another HF URL for the sentiment classification. I understand that the tags classification is also in the paper, so what do you think @holylovenia @jen-santoso ? Updating the datasheet URL to each task's dataset or just sticking to the sentiment task?

In that vein, I also have a question. As the dataset owner and the paper author, is there a reason why you used separate URLs for the subsets (e.g., Mongabay-tags-classification, Mongabay-sentiment-classification, mongabay-experiment) rather than using this unified dataset URL, @megasiska86?

cc: @akhdanfadh @jen-santoso

@megasiska86
Copy link
Author

megasiska86 commented Apr 3, 2024

Here is my general review of the dataloader:

  1. Why do you use t2t schema? It is clearly not a 'text-to-text' task. Instead, it is a labeling task, either to tags or sentiments. Thus, please use text schema and pass the label names for tags or sentiments to the label_names argument. Also, the task is not Tasks.PARAPHRASING.
  2. Even if you use t2t schema, the loaded data does not match the data type that should be (see the test result below). For example, the label field should be an array and not a string.

Here are my comments of the dataset:

  1. The HF URL in the datasheet for this dataloader (Create dataset loader for MongabayConservationDataset #63) is mongabay-experiment in which the provided field on that dataset is for sentiment classification only. Yet, in this dataloader, you add tags classification by providing another HF URL and use another HF URL for the sentiment classification. I understand that the tags classification is also in the paper, so what do you think @holylovenia @jen-santoso ? Updating the datasheet URL to each task's dataset or just sticking to the sentiment task?
  2. Though this is not about the dataloader, as a data constructor yourself, please provide information on your HF data card. It is difficult to understand what the label field corresponds to. For example, sentiment label (softmaxed) corresponds to ['negative', 'neutral', 'positive'], etc.

tag-classification test result

INFO:__main__:Dataset sample [source]
{'text': 'Pandemi, Momentum bagi Negara Serius Lindungi Hak Masyarakat Adat | [CLS] \xa0\xa0\xa0\xa0Hutan adalah gudang segala ada bagi masyarakat adat. Mau cari bahan pangan, obat, sampai segala perlengkapkan ritual budaya, semua ada di hutan. Pandemi Coronavirus Disease 2019 (COVID-19) ini, memperlihatkan, masyarakat adat yang memiliki hutan dan terjaga tahan terhadap krisis kesehatan ini. Mereka punya sumber pangan dan obat-obatan. Untuk itu, masa pandemi ini hendaknya jadi pendorong pemerintah serius memberikan kepastian pengakuan dan perlindungan hak kepada masyarakat adat, antara lain lewat pengesahan RUU Masyarakat Adat.Apai Janggut, tokoh adat dari sekaligus kepala rumah panjang Sungai Utik mengatakan, dalam situasi krisis ini, masyarakat masih memiliki hutan yang jadi supermarket. Di sana, ada bahan pangan dan obat-obatan yang sudah ada turun temurun. Mereka tidak merasa kesulitan.“Kami tidak mau hutan kami rusak, tak mau air kami tercemar dan meminum limbah. Karena sungai adalah ibu kami dan hutan adalah bapak kami,” katanya dalam Bahasa asli Dayak Iban dalam diskusi Hari Masyarakat Adat Sedunia (HIMAS) 2020, 9 Agustus.Untuk itulah, mereka terus kuat menjaga dan melindungi wilayah adat dari kerusakan termasuk oleh perusahaan.Baca juga: Cerita Perempuan Adat Hadapi PandemiSetiap 9 Agustus, dunia memperingati Hari Masyarakat Adat Sedunia (HIMAS). Tahun ini, HIMAS berlangsung di tengah pandemi corona. Di masa ini, PBB angkat tema,” Masyarakat Adat dan COVID-19.” Di Indonesia, Aliansi Masyarakat Adat Nusantara (AMAN) beri tema “COVID-19 dan Resiliensi Masyarakat Adat sebagai cermin dari situasi yang dihadapi oleh masyarakat adat.”Rukka Sombolingi, Sekretaris Jenderal AMAN mengatakan, situasi saat ini jadi sejarah baru, dimana kapitalisme sedang mengalami krisis sangat besar.“Paradigma pembangunan yang mengandalkan ekonomi-politik neoliberalisme yang dipraktikkan rezim kapitalisme global gagal total. Gagal membangun kesejahteraan bagi kita semua,” katanya.',
'label': '[0.1111111119389534, 0.0, 0.0, 0.0, 0.1111111119389534, 0.0, 0.0, 0.0, 0.0, 0.1111111119389534, 0.1111111119389534, 0.0, 0.1111111119389534, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.1111111119389534, 0.0, 0.1111111119389534, 0.0, 0.1111111119389534, 0.0, 0.0, 0.1111111119389534, 0.0, 0.0, 0.0]'}
INFO:__main__:Dataset sample [seacrowd_t2t]
{'id': '0',
'text_1': 'Pandemi, Momentum bagi Negara Serius Lindungi Hak Masyarakat Adat | [CLS] \xa0\xa0\xa0\xa0Hutan adalah gudang segala ada bagi masyarakat adat. Mau cari bahan pangan, obat, sampai segala perlengkapkan ritual budaya, semua ada di hutan. Pandemi Coronavirus Disease 2019 (COVID-19) ini, memperlihatkan, masyarakat adat yang memiliki hutan dan terjaga tahan terhadap krisis kesehatan ini. Mereka punya sumber pangan dan obat-obatan. Untuk itu, masa pandemi ini hendaknya jadi pendorong pemerintah serius memberikan kepastian pengakuan dan perlindungan hak kepada masyarakat adat, antara lain lewat pengesahan RUU Masyarakat Adat.Apai Janggut, tokoh adat dari sekaligus kepala rumah panjang Sungai Utik mengatakan, dalam situasi krisis ini, masyarakat masih memiliki hutan yang jadi supermarket. Di sana, ada bahan pangan dan obat-obatan yang sudah ada turun temurun. Mereka tidak merasa kesulitan.“Kami tidak mau hutan kami rusak, tak mau air kami tercemar dan meminum limbah. Karena sungai adalah ibu kami dan hutan adalah bapak kami,” katanya dalam Bahasa asli Dayak Iban dalam diskusi Hari Masyarakat Adat Sedunia (HIMAS) 2020, 9 Agustus.Untuk itulah, mereka terus kuat menjaga dan melindungi wilayah adat dari kerusakan termasuk oleh perusahaan.Baca juga: Cerita Perempuan Adat Hadapi PandemiSetiap 9 Agustus, dunia memperingati Hari Masyarakat Adat Sedunia (HIMAS). Tahun ini, HIMAS berlangsung di tengah pandemi corona. Di masa ini, PBB angkat tema,” Masyarakat Adat dan COVID-19.” Di Indonesia, Aliansi Masyarakat Adat Nusantara (AMAN) beri tema “COVID-19 dan Resiliensi Masyarakat Adat sebagai cermin dari situasi yang dihadapi oleh masyarakat adat.”Rukka Sombolingi, Sekretaris Jenderal AMAN mengatakan, situasi saat ini jadi sejarah baru, dimana kapitalisme sedang mengalami krisis sangat besar.“Paradigma pembangunan yang mengandalkan ekonomi-politik neoliberalisme yang dipraktikkan rezim kapitalisme global gagal total. Gagal membangun kesejahteraan bagi kita semua,” katanya.',
'text_2': '[0.1111111119389534, 0.0, 0.0, 0.0, 0.1111111119389534, 0.0, 0.0, 0.0, 0.0, 0.1111111119389534, 0.1111111119389534, 0.0, 0.1111111119389534, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.1111111119389534, 0.0, 0.1111111119389534, 0.0, 0.1111111119389534, 0.0, 0.0, 0.1111111119389534, 0.0, 0.0, 0.0]',
'text_1_name': 'text',
'text_2_name': 'weak_label'}

sentiment-classification test result

INFO:__main__:Dataset sample [source]
{'text': 'Pandemi, Momentum bagi Negara Serius Lindungi Hak Masyarakat Adat | [CLS] \xa0\xa0\xa0\xa0Hutan adalah gudang segala ada bagi masyarakat adat. Mau cari bahan pangan, obat, sampai segala perlengkapkan ritual budaya, semua ada di hutan. Pandemi Coronavirus Disease 2019 (COVID-19) ini, memperlihatkan, masyarakat adat yang memiliki hutan dan terjaga tahan terhadap krisis kesehatan ini. Mereka punya sumber pangan dan obat-obatan. Untuk itu, masa pandemi ini hendaknya jadi pendorong pemerintah serius memberikan kepastian pengakuan dan perlindungan hak kepada masyarakat adat, antara lain lewat pengesahan RUU Masyarakat Adat.Apai Janggut, tokoh adat dari sekaligus kepala rumah panjang Sungai Utik mengatakan, dalam situasi krisis ini, masyarakat masih memiliki hutan yang jadi supermarket. Di sana, ada bahan pangan dan obat-obatan yang sudah ada turun temurun. Mereka tidak merasa kesulitan.“Kami tidak mau hutan kami rusak, tak mau air kami tercemar dan meminum limbah. Karena sungai adalah ibu kami dan hutan adalah bapak kami,” katanya dalam Bahasa asli Dayak Iban dalam diskusi Hari Masyarakat Adat Sedunia (HIMAS) 2020, 9 Agustus.Untuk itulah, mereka terus kuat menjaga dan melindungi wilayah adat dari kerusakan termasuk oleh perusahaan.Baca juga: Cerita Perempuan Adat Hadapi PandemiSetiap 9 Agustus, dunia memperingati Hari Masyarakat Adat Sedunia (HIMAS). Tahun ini, HIMAS berlangsung di tengah pandemi corona. Di masa ini, PBB angkat tema,” Masyarakat Adat dan COVID-19.” Di Indonesia, Aliansi Masyarakat Adat Nusantara (AMAN) beri tema “COVID-19 dan Resiliensi Masyarakat Adat sebagai cermin dari situasi yang dihadapi oleh masyarakat adat.”Rukka Sombolingi, Sekretaris Jenderal AMAN mengatakan, situasi saat ini jadi sejarah baru, dimana kapitalisme sedang mengalami krisis sangat besar.“Paradigma pembangunan yang mengandalkan ekonomi-politik neoliberalisme yang dipraktikkan rezim kapitalisme global gagal total. Gagal membangun kesejahteraan bagi kita semua,” katanya.',
'tags': "['Aparatur Sipil Negara' 'masyarakat desa' 'konflik' 'perusahaan'\n 'tambang']",
'label': '[1.0, 1.4414156535025313e-09, 1.3204033422198336e-09]'}
INFO:__main__:Dataset sample [seacrowd_t2t]
{'id': '0',
'text_1': 'Pandemi, Momentum bagi Negara Serius Lindungi Hak Masyarakat Adat | [CLS] \xa0\xa0\xa0\xa0Hutan adalah gudang segala ada bagi masyarakat adat. Mau cari bahan pangan, obat, sampai segala perlengkapkan ritual budaya, semua ada di hutan. Pandemi Coronavirus Disease 2019 (COVID-19) ini, memperlihatkan, masyarakat adat yang memiliki hutan dan terjaga tahan terhadap krisis kesehatan ini. Mereka punya sumber pangan dan obat-obatan. Untuk itu, masa pandemi ini hendaknya jadi pendorong pemerintah serius memberikan kepastian pengakuan dan perlindungan hak kepada masyarakat adat, antara lain lewat pengesahan RUU Masyarakat Adat.Apai Janggut, tokoh adat dari sekaligus kepala rumah panjang Sungai Utik mengatakan, dalam situasi krisis ini, masyarakat masih memiliki hutan yang jadi supermarket. Di sana, ada bahan pangan dan obat-obatan yang sudah ada turun temurun. Mereka tidak merasa kesulitan.“Kami tidak mau hutan kami rusak, tak mau air kami tercemar dan meminum limbah. Karena sungai adalah ibu kami dan hutan adalah bapak kami,” katanya dalam Bahasa asli Dayak Iban dalam diskusi Hari Masyarakat Adat Sedunia (HIMAS) 2020, 9 Agustus.Untuk itulah, mereka terus kuat menjaga dan melindungi wilayah adat dari kerusakan termasuk oleh perusahaan.Baca juga: Cerita Perempuan Adat Hadapi PandemiSetiap 9 Agustus, dunia memperingati Hari Masyarakat Adat Sedunia (HIMAS). Tahun ini, HIMAS berlangsung di tengah pandemi corona. Di masa ini, PBB angkat tema,” Masyarakat Adat dan COVID-19.” Di Indonesia, Aliansi Masyarakat Adat Nusantara (AMAN) beri tema “COVID-19 dan Resiliensi Masyarakat Adat sebagai cermin dari situasi yang dihadapi oleh masyarakat adat.”Rukka Sombolingi, Sekretaris Jenderal AMAN mengatakan, situasi saat ini jadi sejarah baru, dimana kapitalisme sedang mengalami krisis sangat besar.“Paradigma pembangunan yang mengandalkan ekonomi-politik neoliberalisme yang dipraktikkan rezim kapitalisme global gagal total. Gagal membangun kesejahteraan bagi kita semua,” katanya.',
'text_2': '[1.0, 1.4414156535025313e-09, 1.3204033422198336e-09]',
'text_1_name': 'text',
'text_2_name': 'weak_label'}

Thank you for the review.

  1. At the beginning I tried to use TEXT schema since my dataset belongs to text classification task. But I got issue regarding my training set that use probability per class as label (since my training set type is weak-labeled dataset). So I proposed to use this t2t schema that's more flexible and suitable for my label type
  2. I unified the label type to string due to vary label format I used. For tags classification, the label example is something like this:
    Training
    [0.1111111119389534, 0.0, 0.0, 0.0, 0.1111111119389534, 0.0, 0.0, 0.0, 0.0, 0.1111111119389534, 0.1111111119389534, 0.0, 0.1111111119389534, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.1111111119389534, 0.0, 0.1111111119389534, 0.0, 0.1111111119389534, 0.0, 0.0, 0.1111111119389534, 0.0, 0.0, 0.0]
    
    Valid & Test
    [1.0, 0.0, 0.0, 0.0, 1.0, 0.0, 0.0, 0.0, 0.0, 1.0, 1.0, 0.0, 1.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 1.0, 0.0, 1.0,  0.0, 1.0, 0.0, 0.0, 1.0, 0.0, 0.0, 0.0]
    
    And for sentiment classification, the label example is something like:
    Training
    [0.999, 0.0, 0.0]
    
    Valid & Test
    negative
    

cc: @akhdanfadh

@megasiska86
Copy link
Author

Here are my comments of the dataset:

  1. The HF URL in the datasheet for this dataloader (Create dataset loader for MongabayConservationDataset #63) is mongabay-experiment in which the provided field on that dataset is for sentiment classification only. Yet, in this dataloader, you add tags classification by providing another HF URL and use another HF URL for the sentiment classification. I understand that the tags classification is also in the paper, so what do you think @holylovenia @jen-santoso ? Updating the datasheet URL to each task's dataset or just sticking to the sentiment task?

In that vein, I also have a question. As the dataset owner and the paper author, is there a reason why you used separate URLs for the subsets (e.g., Mongabay-tags-classification, Mongabay-sentiment-classification, mongabay-experiment) rather than using this unified dataset URL, @megasiska86?

cc: @akhdanfadh @jen-santoso

Nice concern @holylovenia
I created mongabay_collection as an alternative before knowing our dataset can be called per subset. When I found we can call dataloader per subset dataset, I prefer to use separated links Mongabay-tags-classification, Mongabay-sentiment-classification for organized and tidied purpose

@holylovenia
Copy link
Contributor

Here are my comments of the dataset:

  1. The HF URL in the datasheet for this dataloader (Create dataset loader for MongabayConservationDataset #63) is mongabay-experiment in which the provided field on that dataset is for sentiment classification only. Yet, in this dataloader, you add tags classification by providing another HF URL and use another HF URL for the sentiment classification. I understand that the tags classification is also in the paper, so what do you think @holylovenia @jen-santoso ? Updating the datasheet URL to each task's dataset or just sticking to the sentiment task?

In that vein, I also have a question. As the dataset owner and the paper author, is there a reason why you used separate URLs for the subsets (e.g., Mongabay-tags-classification, Mongabay-sentiment-classification, mongabay-experiment) rather than using this unified dataset URL, @megasiska86?
cc: @akhdanfadh @jen-santoso

Nice concern @holylovenia I created mongabay_collection as an alternative before knowing our dataset can be called per subset. When I found we can call dataloader per subset dataset, I prefer to use separated links Mongabay-tags-classification, Mongabay-sentiment-classification for organized and tidied purpose

I see. Could you use mongabay_collectionas the URL for this dataloader for simplicity?

@holylovenia
Copy link
Contributor

A friendly reminder for @megasiska86 to address the suggestions. 🙏

@holylovenia
Copy link
Contributor

Hi @megasiska86, is there anything we can help you with for the dataloader?

@megasiska86
Copy link
Author

Here are my comments of the dataset:

  1. The HF URL in the datasheet for this dataloader (Create dataset loader for MongabayConservationDataset #63) is mongabay-experiment in which the provided field on that dataset is for sentiment classification only. Yet, in this dataloader, you add tags classification by providing another HF URL and use another HF URL for the sentiment classification. I understand that the tags classification is also in the paper, so what do you think @holylovenia @jen-santoso ? Updating the datasheet URL to each task's dataset or just sticking to the sentiment task?

In that vein, I also have a question. As the dataset owner and the paper author, is there a reason why you used separate URLs for the subsets (e.g., Mongabay-tags-classification, Mongabay-sentiment-classification, mongabay-experiment) rather than using this unified dataset URL, @megasiska86?
cc: @akhdanfadh @jen-santoso

Nice concern @holylovenia I created mongabay_collection as an alternative before knowing our dataset can be called per subset. When I found we can call dataloader per subset dataset, I prefer to use separated links Mongabay-tags-classification, Mongabay-sentiment-classification for organized and tidied purpose

I see. Could you use mongabay_collectionas the URL for this dataloader for simplicity?

Okay, will do it in the end of this week. thank you

@holylovenia
Copy link
Contributor

Okay, will do it in the end of this week. thank you

Thanks @megasiska86! Feel free to ask @akhdanfadh and @jen-santoso if you have any questions or concerns!

@holylovenia
Copy link
Contributor

holylovenia commented May 13, 2024

Hi @megasiska86, I would like to let you know that we plan to finalize the calculation of the open contributions (e.g., dataloader implementations) by 30 May, so it'd be great if we could wrap up the reviewing and merge this PR before then.

@holylovenia
Copy link
Contributor

Hi @megasiska86, I would like to let you know that we plan to finalize the calculation of the open contributions (e.g., dataloader implementations) in 31 hours, so it'd be great if we could wrap up the reviewing and merge this PR before then.

@holylovenia
Copy link
Contributor

Hi @megasiska86, thank you for contributing to SEACrowd! I would like to let you know that we are still looking forward to completing this PR (and dataloader issues) and maintaining SEACrowd Data Hub. We hope to enable access to as many standardized dataloaders as possible for SEA datasets. ☺️

Feel free to continue the PR whenever you're available, and if you would like to re-assign this dataloader to someone else, just let us know and we can help. 💪

Thanks again!

cc: @akhdanfadh @jen-santoso

Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Projects
None yet
Development

Successfully merging this pull request may close these issues.

Create dataset loader for MongabayConservationDataset
4 participants