-
Notifications
You must be signed in to change notification settings - Fork 10.2k
New issue
Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.
By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.
Already on GitHub? Sign in to your account
关于感知机与CRF对空格与标点的词性识别问题 #797
Labels
Comments
一个个来说吧。
用户可以考虑如下做法:
|
如果要去掉空格、标点等分隔符,怎么表达句子与段落之间的停顿呢? |
@hankcs 请问这里的'!'有什么特殊含义吗? |
@holysoros 处理文章的时候一般需要先断句,你可以用空格标点等构造正则表达式split文章,HanLP也提供SentenceUtil。 @wangzhe258369 将空格转换为感叹号,感叹号是语料库中常见的断句符,你也可以转换为句号之类。 无论如何,不要把脏活全丢给分词器,就算吸尘器可以吸垃圾,一般吸之前还是要先把大型垃圾扫走的。 |
Sign up for free
to join this conversation on GitHub.
Already have an account?
Sign in to comment
注意事项
请确认下列注意事项:
版本号
当前最新版本号是:1.6.3
我使用的版本是:portable-1.6.3
我的问题
综合比较其他几种分词器,感知机对词性的标注相对更准确,但是对于空格和标点符号(尤其是英文标点)的标注存在许多问题。
例如对以下这句话的标注:
"你好, 我想知道: 风是从哪里来; 雷是从哪里来; 雨是从哪里来?"
perceptron:
crf:
viterbi:
重点关注空格与标点的分词,结果发现:感知机与CRF对有时空格与标点识别为其他词性,甚至会与前后的词成为组合,反而默认的viterbi对于标点的处理更好。
最近开始接触这方面,尚未仔细阅读源码,请问对于空格与标点是如何处理的,能否改进?请指导。
The text was updated successfully, but these errors were encountered: