Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

删除stopwords.txt文件内容后重启,自带停用词任然生效? #1254

Closed
1 task done
achenjie opened this issue Jul 27, 2019 · 1 comment
Closed
1 task done

Comments

@achenjie
Copy link

achenjie commented Jul 27, 2019

注意事项

请确认下列注意事项:

  • 我已仔细阅读下列文档,都没有找到答案:
  • 我已经通过Googleissue区检索功能搜索了我的问题,也没有找到答案。
  • 我明白开源社区是出于兴趣爱好聚集起来的自由社区,不承担任何责任或义务。我会礼貌发言,向每一个帮助我的人表示感谢。
  • 我在此括号内输入x打钩,代表上述事项确认完毕

版本号

当前最新版本号是:1.7.4
我使用的版本是:1.7.4

我的问题

非常感谢,用了您这边提供的补丁 #1253 ,有以下两个问题:
1、分词器只能选择基类要是seg.segment的吗?我选择最短路径分词就可以进行语义查询,但是选择NLPTokenizer 就会提示报错,
com.hankcs.hanlp.mining.word2vec.DocVectorModel(com.hankcs.hanlp.mining.word2vec.WordVectorModel,com.hankcs.hanlp.seg.Segment,boolean);
2、我的目的是删除hanlp里面自带的停用词,使自带的停用词在我的程序中不生效,然后添加自己的停用词,但是最后的测试结果是,自带的停用词删除无效,不管是用那个分词器,然后使用CoreStopWordDictionary.apply(term_list)进行删除停用词时,自带的停用词后还是会起作用。

复现问题

步骤

  1. 首先……
  2. 然后……
  3. 接着……

触发代码

text = ‘员工怎么办理工作证’
NLPTokenizer = JClass("com.hankcs.hanlp.tokenizer.NLPTokenizer")
term_list = NLPTokenizer.segment(text)
print(term_list)

输出结果:
[员工/n,  怎么/r, 办理/v, 工作证/n]

CoreStopWordDictionary = JClass("com.hankcs.hanlp.dictionary.stopword.CoreStopWordDictionary")
CoreStopWordDictionary.apply(term_list)
print(term_list)

输出结果:
[员工/n,  办理/v, 工作证/n]

接着,删除在data/dictionary目录下,删除stopwords.txt.bin文件,并将stopwords.txt文件删除为空,重启后,重新运行程序。

CoreStopWordDictionary = JClass("com.hankcs.hanlp.dictionary.stopword.CoreStopWordDictionary")
CoreStopWordDictionary.apply(term_list)
print(term_list)

输出结果:
[员工/n,  办理/v, 工作证/n]

问题:为什么删除了停用词典,hanlp自带的原有停用词任然能器作用?

期望输出

[员工/n,  怎么/r, 办理/v, 工作证/n]

实际输出

[员工/n,  办理/v, 工作证/n]

其他信息

@hankcs
Copy link
Owner

hankcs commented Jul 28, 2019

已回复#1253

Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Projects
None yet
Development

No branches or pull requests

2 participants