We read every piece of feedback, and take your input very seriously.
To see all available qualifiers, see our documentation.
Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.
By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.
Already on GitHub? Sign in to your account
请确认下列注意事项:
当前最新版本号是:1.7.3 我使用的版本是:1.7.3
对于国际化业务,query里面会有简体、繁体、英文、日语等情况,繁转简错误比较多。
拿了约2g的百科语料,对比了opencc和hanlp的繁转简结果,第一列为语料,由于语料比较长,窃取了以diff为中心的前后10个字,第二列为opencc结果,第三列为hanlp结果。
更多diff参见文件 diff.txt,以tab键分隔,很多由于原始query与繁转简后句子长度不一致,可能会出现【】在非转换字的上。
The text was updated successfully, but these errors were encountered:
感谢反馈,HanLP的词库来源是OpenCC。然而合并了异体字等词库,是导致结果不一致的原因。近期会改正这个问题。
Sorry, something went wrong.
f7c928c
感谢反馈,已经修复,请参考上面的commit。 如果还有问题,欢迎重开issue。
厉害,我又新添加了2G的语料,在4G的百度百科上和opencc完全一致。
无损转换OpenCC词典,结果一致 https://github.com/hankcs/OpenCC-to-HanLP fix #1184
ab68346
No branches or pull requests
注意事项
请确认下列注意事项:
版本号
当前最新版本号是:1.7.3
我使用的版本是:1.7.3
我的问题
对于国际化业务,query里面会有简体、繁体、英文、日语等情况,繁转简错误比较多。
测试方法
拿了约2g的百科语料,对比了opencc和hanlp的繁转简结果,第一列为语料,由于语料比较长,窃取了以diff为中心的前后10个字,第二列为opencc结果,第三列为hanlp结果。
更多diff参见文件 diff.txt,以tab键分隔,很多由于原始query与繁转简后句子长度不一致,可能会出现【】在非转换字的上。
The text was updated successfully, but these errors were encountered: