Skip to content
This repository has been archived by the owner on Mar 29, 2024. It is now read-only.

This issue was moved to a discussion.

You can continue the conversation there. Go to discussion →

[远期] 数据结构的粗想 #96

Closed
Guanchishan opened this issue Feb 12, 2020 · 1 comment
Closed

[远期] 数据结构的粗想 #96

Guanchishan opened this issue Feb 12, 2020 · 1 comment

Comments

@Guanchishan
Copy link
Member

Guanchishan commented Feb 12, 2020

前面提到数据结构化的问题。今天下午整理半天俗语,大概有了点思路。

id tag text Yngping Lo-ma-ce meaning word sound provider provider from¹² region time sex source contributor contributor from
word 语词属性¹ 语词原文 语词榕拼 语词教会罗马字 解释原文 调用用例语词² 语词音频 提供者名氏 提供者单位 适用地域 可使用该语词之年岁³ 可使用该语词之性别⁴ 字词出处 录入志愿者 录入志愿者单位
source⁵ 参考或延伸原文⁷ N/A N/A N/A N/A 参考或延伸作者 参考或延伸作者之单位 参考或延伸出版地 参考或延伸发布时间 N/A N/A N/A N/A
tag 属性属性⁹
sound 录音属性 ¹⁰ 录音人名氏 录音人单位 录音人地域 录音人年岁 录音人性别 录音出处
theme¹³ 意义素属性¹¹

¹如单字、句、文章;词性、褒贬义、类别;体裁。
²原本构思出了三种语词字段:word(字词)、sentence(句,各种俗语与词典提供的各种例句都算在内)、work(如《圣经》《筅堂洗厝好过年》或者闽剧剧本)。字词组成句,句组成文章。反过来,文章可析成一句句话去点击查看详情,句到字词亦然。(正如当时学长提出歌谣与俗语宜分属不同数据结构。)后来觉得正如以前对词汇、例句、俗语(#56#64)等定义与分野的探讨一样,他们实在如光谱一般,是过渡的概念,彼此之间界限并不分明。不如都抹平,直接视为word,word之间再彼此调用作为用例等等?word本身可以通过声明体裁tag明确其为歌谣、歇后语乃至戏文,还可以加单字tag以明确这是单字,加新闻稿tag明确这是新闻稿等等。
³可能与性别tag功能重复。若把语词的性别信息集约至tag,则该字段可N/A。
⁴age最开始还是设计给录音人年岁用的。若用于语词,可能与年龄段tag功能重复。若把语词的使用者年龄信息集约至tag,则该字段可N/A。
⁵如果对语词参考文献further reading进行结构化管理,那source字段就可以派上用场了。
⁶如果是维基,还会给source区分news、web、book、journal等等类别,但我们反正没必要这么弄。
⁷如Storia-di-Hokchew收录的那些原文,供链接不可用时备查。
⁸如Storia-di-Hokchew的keyword等。
⁹如农业工业商业tags的属性为行业,名词动词形容词tags的属性为词性,戏本歌谣歇后语等tags的属性为体裁等,以对tag统筹管理。
¹⁰sound依附于word,所以sound的文本不用附着于sound,而是sound附着于作为一个word的文本。
¹¹如词性、褒贬义、类别等。
¹²单位,如该用户来自微博就写Weibo,来自鼓楼区文化局就写鼓楼区文化局,最后显示就如Guanchishan@GitHub,或林行@鼓楼区文化局。鼓楼区文化局、福建省文史馆、福建师范大学文学院等文本可以看作一种背书。
¹³theme如何安排未考虑清楚。我想的是,94版《福州方言词典》的“啊”和98版《福州方言词典》的“啊”都是一个词——“啊”,那这两个“啊”就是同一个theme,该theme为“啊”。又如94版《福州方言词典》的“心肝搭搭,伓驚菩薩”和《熟语大全》的“心间搭搭,伓惊菩萨”明显是同一个俗语,则使theme相同。这还只是写法不同的例子。若同样是十二个月的水果歌谣,出现“番石榴罔好复无名”(连江,@siuze 提供)、“七月番石榴不上三盖灶”(海都报)、“七月番石榴无上三界桌”(不知名文献,麦羽提供)、“七月番石榴无上三界泉”(连江县志)等变体,也可同一theme否?并导入评审、权重机制?而且在这种情况下,标明来源与地域就异常重要了。

赋予唯一识别码后,就方便进行版本管理、大众验证等等了。

@Guanchishan Guanchishan changed the title 结构化的数据编号构想 数据结构的粗想 Feb 13, 2020
@Guanchishan Guanchishan changed the title 数据结构的粗想 [远期] 数据结构的粗想 Feb 20, 2020
@Guanchishan
Copy link
Member Author

2020年8月15日榕典、输入法例会上,与会者提出对榕典数据结构的远期展望:

高度结构化的读音数据

  • 目前榕典以多来源词典自况,数据结构是以一本本词典为本位,同一词汇的详情是先分词典再展开具体解释的
  • 若高度结构化,则词条页下先分各破读,各破读下记载其文白读性质/读音来源/读音对应地域等信息(参考粤语词典

高度结构化的释义数据(工作量太大,没有明确划分/操作标准)

  • 类似维基数据,把义项从辞书中总结出来,各义项下附辞书来源并绑定相关例句

@MindongLab MindongLab locked and limited conversation to collaborators Oct 5, 2021

This issue was moved to a discussion.

You can continue the conversation there. Go to discussion →

Projects
None yet
Development

No branches or pull requests

1 participant