We read every piece of feedback, and take your input very seriously.
To see all available qualifiers, see our documentation.
Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.
By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.
Already on GitHub? Sign in to your account
请确认下列注意事项:
当前最新版本号是:1.7.4 我使用的版本是:1.7.4
非常感谢,用了您这边提供的补丁 #1253 ,有以下两个问题: 1、分词器只能选择基类要是seg.segment的吗?我选择最短路径分词就可以进行语义查询,但是选择NLPTokenizer 就会提示报错, com.hankcs.hanlp.mining.word2vec.DocVectorModel(com.hankcs.hanlp.mining.word2vec.WordVectorModel,com.hankcs.hanlp.seg.Segment,boolean); 2、我的目的是删除hanlp里面自带的停用词,使自带的停用词在我的程序中不生效,然后添加自己的停用词,但是最后的测试结果是,自带的停用词删除无效,不管是用那个分词器,然后使用CoreStopWordDictionary.apply(term_list)进行删除停用词时,自带的停用词后还是会起作用。
text = ‘员工怎么办理工作证’ NLPTokenizer = JClass("com.hankcs.hanlp.tokenizer.NLPTokenizer") term_list = NLPTokenizer.segment(text) print(term_list) 输出结果: [员工/n, 怎么/r, 办理/v, 工作证/n] CoreStopWordDictionary = JClass("com.hankcs.hanlp.dictionary.stopword.CoreStopWordDictionary") CoreStopWordDictionary.apply(term_list) print(term_list) 输出结果: [员工/n, 办理/v, 工作证/n] 接着,删除在data/dictionary目录下,删除stopwords.txt.bin文件,并将stopwords.txt文件删除为空,重启后,重新运行程序。 CoreStopWordDictionary = JClass("com.hankcs.hanlp.dictionary.stopword.CoreStopWordDictionary") CoreStopWordDictionary.apply(term_list) print(term_list) 输出结果: [员工/n, 办理/v, 工作证/n] 问题:为什么删除了停用词典,hanlp自带的原有停用词任然能器作用?
[员工/n, 怎么/r, 办理/v, 工作证/n]
[员工/n, 办理/v, 工作证/n]
The text was updated successfully, but these errors were encountered:
已回复#1253
Sorry, something went wrong.
No branches or pull requests
注意事项
请确认下列注意事项:
版本号
当前最新版本号是:1.7.4
我使用的版本是:1.7.4
我的问题
非常感谢,用了您这边提供的补丁 #1253 ,有以下两个问题:
1、分词器只能选择基类要是seg.segment的吗?我选择最短路径分词就可以进行语义查询,但是选择NLPTokenizer 就会提示报错,
com.hankcs.hanlp.mining.word2vec.DocVectorModel(com.hankcs.hanlp.mining.word2vec.WordVectorModel,com.hankcs.hanlp.seg.Segment,boolean);
2、我的目的是删除hanlp里面自带的停用词,使自带的停用词在我的程序中不生效,然后添加自己的停用词,但是最后的测试结果是,自带的停用词删除无效,不管是用那个分词器,然后使用CoreStopWordDictionary.apply(term_list)进行删除停用词时,自带的停用词后还是会起作用。
复现问题
步骤
触发代码
期望输出
实际输出
其他信息
The text was updated successfully, but these errors were encountered: