forked from zldeng/OnlineLabel
-
Notifications
You must be signed in to change notification settings - Fork 0
hitwsl/OnlineLabel
Folders and files
Name | Name | Last commit message | Last commit date | |
---|---|---|---|---|
Repository files navigation
目前系统提供了分词、词性标注训练和测试功能,但是不提供训练语料 系统测试时支持多线程,默认设置为单线程使用,可在调用时设置thread参数来设置线程数 分词训练和测试命令可参考目录下的seg.train.sh和seg.test.sh文件 词性标注训练和测试命令可参考目录下的pos.train.sh和pos.test.sh文件 目前训练算法只提供Average Perceptron,后续将增加新的训练算法 在每次迭代的时候,都会保存当前模型,并使用开发集对当前模型进行性能测试,用户可根据训练的log文件直接选择性能最优的模型 在sample.java文件中是调用相关分词和词性标注程序的示例 所有输入输出文件均使用UTF-8编码 文件说明: data目录: (1)pos conll06.pos.dic:conll06训练语料中抽取的词性标注词典,词典获取的方法是将语料中出现次数大于等于3次的词语及相关词性保存为词典 dev.conll06.pos.gold:conll06语料词性标注开发集gold文件,在训练的时候做为模型的性能评价文件 test.conll06.seg:conll06语料词性标注测试集测试文件 test.conll06.pos:conll06语料词性标注测试集gold文件 pos.tran.sample:词性标注训练语料格式样例 (2)seg pku.seg.dic: 北大词典 pku.test.gold:pku语料测试集gold文件 pku.test:pku语料测试集文件 seg.train.sample:分词训练语料格式样例 model目录: conll06.pos.model:使用conll06语料训练的词性标注模型,目前模型在开发集上的性能为94.3%,测试集性能为93.7% pku.seg.model:使用pku语料训练的分词模型,目前模型在测试集上分词性能: P: 96.36% R: 96.23% F:96.29% lib目录: 包含引用的jar包 config目录: 存放相关的配置文件。目前只包含log4j的配置文件。 log目录: 存放系统运行的log文件,词性标注日志文件为pos.log,分词日志文件为seg.log 程序中使用的词性标注特征: 词语的n_gram特征: w_i (i = -2,-1,0,1,2) w_i,w_i+1 (i = -1,0) w_-1,w_1 词边界特征: last_char(w_-1)w_0 first_char(w_0)w_1 其中first_char和last_char表示词语的第一个和最后一个字 词前后缀信息: first_char(w_0)last_char(w_0) prefix(w_0,i) (i =1,2,3) suffix(w_0,i) (i = 1,2,3) prefix代表词长度为i的前缀,suffix代表词长度为i的后缀 词长度信息: len(w_0) 词的长度大于五的时候,统一使用五表示 词典信息: postag_lexicon(w_0) 表示词语在词典中的候选词性 叠字信息: 词语中每一个字和词语中的第一个字的组合 词语中的每一个字和词语的最后一个字的组合 词语中的第i个字和第i+1个字是否相同 词语中的第i个字和第i+2个字是否相同 词语类别信息: digit,letter,punctuation以及other 程序中使用的分词特征: 字符n_gram特征: c_i (i = -2,-1,-,1,2) c_i,c_i+1 (i = -2,-1,0,1) c_i,c_i+2 (i = -2,-1,0) c_i,c_i+1,c_i+2 (i = -1) 叠字信息: dup(c_i,c_i+1): c_i和c_i+1是否是相同字 dup(c_i,c_i+2): c_i和c_i+2是否是相同字 chartype(c_0): c_0的字符类别,包括字母、标点、数字和其他 prefix(c_0,D): 以c_0开始的在词典D中的最长前缀的长度 middle(c_0,D): c_0位于中间的存在于词典中的最长子串的长度 suffix(c_0,D): 以c_0结束的存在于词典中的最长后缀的长度
About
Online Segmentation ans POS tagger with Average Perceptron
Resources
Stars
Watchers
Forks
Releases
No releases published
Packages 0
No packages published