We read every piece of feedback, and take your input very seriously.
To see all available qualifiers, see our documentation.
Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.
By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.
Already on GitHub? Sign in to your account
请确认下列注意事项:
当前最新版本号是:hanlp-1.6.7.jar 我使用的版本是:hanlp-1.6.7.jar
我使用朴素贝叶斯模型训练进行文本分类时,我自己训练两个种类:商票、体育,每个种类训练5个句子,结果日志显示: 正在构造训练数据集...[商票]...50.00%...[体育]...100.00%...耗时 260 ms 加载完毕 原始数据集大小:10 使用卡方检测选择特征中...耗时 1 ms,选中特征数:0 / 380 = 0.00% 用训练得到的模型测试不同种类的文本时,每次都是体育,这是怎么回事呢?是训练的素材不够导致的吗?
public void testIssue1234() throws Exception { CustomDictionary.add("用户词语"); System.out.println(StandardTokenizer.segment("触发问题的句子")); }
期望输出
实际输出
The text was updated successfully, but these errors were encountered:
c1a6d5d
Sorry, something went wrong.
卡方检测失败时不过滤特征 fix #920
a1db7a6
No branches or pull requests
注意事项
请确认下列注意事项:
版本号
当前最新版本号是:hanlp-1.6.7.jar
我使用的版本是:hanlp-1.6.7.jar
我的问题
我使用朴素贝叶斯模型训练进行文本分类时,我自己训练两个种类:商票、体育,每个种类训练5个句子,结果日志显示:
正在构造训练数据集...[商票]...50.00%...[体育]...100.00%...耗时 260 ms 加载完毕
原始数据集大小:10
使用卡方检测选择特征中...耗时 1 ms,选中特征数:0 / 380 = 0.00%
用训练得到的模型测试不同种类的文本时,每次都是体育,这是怎么回事呢?是训练的素材不够导致的吗?
复现问题
步骤
触发代码
期望输出
实际输出
其他信息
The text was updated successfully, but these errors were encountered: