Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

自定义词典存在长词,自定义词性 以m或x 开头,会被修改词性 #1172

Closed
1 task done
tiandiweizun opened this issue May 6, 2019 · 2 comments
Closed
1 task done
Labels

Comments

@tiandiweizun
Copy link

tiandiweizun commented May 6, 2019

注意事项

请确认下列注意事项:

  • 我已仔细阅读下列文档,都没有找到答案:
  • 我已经通过Googleissue区检索功能搜索了我的问题,也没有找到答案。
  • 我明白开源社区是出于兴趣爱好聚集起来的自由社区,不承担任何责任或义务。我会礼貌发言,向每一个帮助我的人表示感谢。
  • 我在此括号内输入x打钩,代表上述事项确认完毕。

版本号

当前最新版本号是:1.7.3
我使用的版本是:1.7.3

我的问题

自定义词典存在长词,自定义词性 以m或x 开头,会被修改词性

复现问题

步骤

  1. 添加带有自定义词性的自定义分词词典,自定义.txt

我的额度 xyz 1000
提高额度 my 1000

  1. 修改hanlp.properties,在CustomDictionaryPath添加自定义词典(自定义.txt)
  2. 调用HanLP.segment("我的额度不够,需要提高额度")

触发代码


期望输出

[我的额度/xyz, 不够/a, ,/w, 需要/v, 提高额度/my]

实际输出

[我的额度/x, 不够/a, ,/w, 需要/v, 提高额度/mq]

原因分析

自定义分词的时候,在拼接词的时候,ViterbiSegment的combineWords方法调用Vertex的compileRealWord方法,在词性以x和m开头的时候,导致词性修改

其他信息

@tiandiweizun tiandiweizun changed the title 自定义词性 以m或x 开头,会被修改词性 自定义词典存在长词,自定义词性 以m或x 开头,会被修改词性 May 6, 2019
@hankcs hankcs added the bug label May 6, 2019
@hankcs hankcs closed this as completed in 69cddf7 May 6, 2019
@hankcs
Copy link
Owner

hankcs commented May 6, 2019

感谢反馈,已经修复,请参考上面的commit。
如果还有问题,欢迎重开issue。

@tiandiweizun
Copy link
Author

厉害,速度真快

hankcs added a commit that referenced this issue Jan 10, 2020
Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Labels
Projects
None yet
Development

No branches or pull requests

2 participants