Releases: hankcs/HanLP
Releases · hankcs/HanLP
v1.6.7模型默认训练自微软研究院语料库修订版
- 默认感知机分词模型训练自 MSRA Named Entity Corpus
- 词法分析器在低优先级用户词典模式下合并统计分词结果,高优先级模式则最长匹配
- 词法分析器用户词典覆盖词性标注器的结果:#525
- 改进人名UV拆分 fix #880
- 修复 MaxEntDependencyParser fix #914
- 新增TF和TF-IDF统计与关键词提取工具
- word2vec适配IOAdapter与集群 fix #903
- HanLP.extractWords增加更多参数
- 新增NERTrainer.tagSet成员,方便Python用户
- Sentence新增更多语料操作接口
- LinearModel显示压缩进度
- 微调人名、bigram等模型
- 修订简繁词典,根据国家统计局2016行政区划数据校订地名词典
- 新数据包data-for-1.6.7.zip
md5=4da338b7bcf3939a70b8cc16ed338c45
- Portable版同步升级到v1.6.7
<dependency>
<groupId>com.hankcs</groupId>
<artifactId>hanlp</artifactId>
<version>portable-1.6.7</version>
</dependency>
🎉感谢所有在issue中提出宝贵建议的用户!
v1.6.6解码快10倍的CRF词法分析器
- CRF模型重构为对数线性模型,复用感知机框架的维特比解码算法,速度提高10倍
- 正式废弃CRFSegment,删除
CRFSegmentModel.txt.bin
- 句法分析器默认使用NLPTokenizer
- 修复新Nature框架下角色标注机构名识别问题:#870
- 新旧模型不兼容,请下载新数据包data-for-1.6.6.zip
md5=aea7194670d89f920d59a592568c88ad
- Portable版同步升级到v1.6.6
<dependency>
<groupId>com.hankcs</groupId>
<artifactId>hanlp</artifactId>
<version>portable-1.6.6</version>
</dependency>
🎉感谢所有在issue中提出宝贵建议的用户!
v1.6.5跨平台稳定的自定义词性
Pre-release测试版
- 重构Nature枚举为类,避免反射,兼容最新JDK:#866
- 新增感知机分类器,基于此实现人名性别识别
- 新增一阶、二阶HMM
- 新增中文分词评测工具
- 支持使用环境变量HANLP_ROOT来代替hanlp.properties中的root
- IOUtil读取空白文件时的稳定性,兼容 UTF8 file with BOM
- IOUtil.loadDictionary支持标记整个词典的默认词性
- DoubleArrayTrieSegment和AhoCorasickDoubleArrayTrieSegment支持构造自词典路径
- 修正感知机词法分析器在不进行命名实体识别时对字符的正规化 @wangzhe258369
- 微调人名识别模型、删除错误词条
- 修订CharTable,删除橙子和橘子的不合理的转换 @linuxsong
- 数据包 data-for-1.6.4.zip
md5=8b5b944f89c4052d0552bf8ad7479010
获取最新版的数据包,请fork
并git clone
一份仓库中的最新data。 - Portable版同步升级到v1.6.5
<dependency>
<groupId>com.hankcs</groupId>
<artifactId>hanlp</artifactId>
<version>portable-1.6.5</version>
</dependency>
🎉感谢所有在issue中提出宝贵建议的用户!
v1.6.4常规维护
- 优化CorpusLoader、优化MutableFeatureMap的设计
- 优化新词发现,使结果不含分隔符:#826
- TextRank提取关键词提升算法速度 @hlstudio
- 用户词典热更新时支持.csv @patrick_lin
- 增强词向量读取时的健壮性:#821
- 根据百度汉语和在线辞海修正拼音词典 @AnyListen
- 修订停用词词典 @duohappy
- 修复词法分析器禁用用户词典时发生的问题、修复词法分析器seg接口与命名实体识别的配合问题:https://github.com/hankcs/pyhanlp/issues/15#issuecomment-382583304 、修正结构化感知机多线程平均的问题
- 微调人名识别模型、新增月份词汇
- 数据包 data-for-1.6.4.zip
md5=8b5b944f89c4052d0552bf8ad7479010
获取最新版的数据包,请fork
并git clone
一份仓库中的最新data。 - Portable版同步升级到v1.6.4
<dependency>
<groupId>com.hankcs</groupId>
<artifactId>hanlp</artifactId>
<version>portable-1.6.4</version>
</dependency>
🎉感谢所有在issue中提出宝贵建议的用户!
v1.6.3支持动态用户词典、自定义词性与优先级
- 词法分析器支持
CustomDictionary.insert
动态插入的用户词条 - 词法分析器支持用户词典中的自定义词性
- 词法分析器支持
enableCustomDictionaryForcing
提高用户词典优先级 - NLPTokenizer默认使用感知机词法分析器
- 完善圆圈数字对应关系 @AnyListen
- 开放命名实体识别的特征提取方法
- TextRankKeyword使用CoreStopWordDictionary的过滤器
- 删除人名识别中的BXD模式,优化日本人名识别
- 修复ViterbiSegment激活多个配置项带来的问题
- 微调bigram、微调人名识别模型
- 数据包兼容 data-for-1.6.2.zip
md5=3ebb9e47ecff740f09c9ec7c21324661
获取最新版的数据包,请fork
并git clone
一份仓库中的最新data。 - Portable版同步升级到v1.6.3
<dependency>
<groupId>com.hankcs</groupId>
<artifactId>hanlp</artifactId>
<version>portable-1.6.3</version>
</dependency>
🎉感谢所有在issue中提出宝贵建议的用户!
v1.6.2词法分析器支持词典、简繁和索引模式
- 所有词法分析器都支持用户词典、简繁、offset与全切分索引模式(需更新模型与CharTable)
- CRF分词升级到CRF词法分析器,支持训练,与CRF++兼容
- 重构词法分析器,提供统一的接口。
- HanLP.newSegment支持传入算法名称构造相应的分词器
- Sentence支持翻译词性,方便记不住词性短码的初级用户
- Sentence支持输出brat standoff format:http://brat.nlplab.org/standoff.html
- 修复DoubleArrayTrie的LongestSearcher
- 修订词库、修订CharTable、微调人名识别模型,解决:#772
- 新数据包 data-for-1.6.2.zip
md5=3ebb9e47ecff740f09c9ec7c21324661
获取最新版的数据包,请fork
并git clone
一份仓库中的最新data。 - Portable版同步升级到v1.6.2
<dependency>
<groupId>com.hankcs</groupId>
<artifactId>hanlp</artifactId>
<version>portable-1.6.2</version>
</dependency>
🎉感谢所有在issue中提出宝贵建议的用户!
v1.6.1常规维护
- 感知机分词性能评估、修正感知机词法分析器在空白字符串时的问题
- 感知机命名实体识别支持任意NER类型、开放词法分析器CWS、POS和NER的getter
- 修复MutableDoubleArrayTrieInteger遍历时可能产生的问题
- 优化角色标注人名识别的启发式规则
- 文本分句支持颗粒度
- 微调bigram、人名识别模型
- 依然兼容数据包 data-for-1.6.0.zip
md5=38d19afa881ddb00b213f4680259ce68
获取最新版的数据包,请fork
一份并git clone https://github.com/YourName/HanLP.git
。 - Portable版同步升级到v1.6.1
<dependency>
<groupId>com.hankcs</groupId>
<artifactId>hanlp</artifactId>
<version>portable-1.6.1</version>
</dependency>
🎉感谢所有在issue中提出宝贵建议的用户!
v1.6.0感知机词法分析器,动态双数组trie树
- 🚩《基于感知机的中文分词、词性标注与命名实体识别框架》
- 🚩《动态双数组trie树》
- 新数据包 data-for-1.6.0.zip
md5=38d19afa881ddb00b213f4680259ce68
获取最新版的数据包,请fork
一份并git clone https://github.com/YourName/HanLP.git
。 - Portable版同步升级到v1.6.0
<dependency>
<groupId>com.hankcs</groupId>
<artifactId>hanlp</artifactId>
<version>portable-1.6.0</version>
</dependency>
🎉感谢所有在issue中提出宝贵建议的用户!
v1.5.4常规维护
- 优化DoubleArrayTrieSegment的效率
- 废弃CRFDependencyParser:#730
- 改正CRF的Tag方法:#703 (comment)
- 加载核心词典词性转移矩阵失败时以IllegalArgumentException方式通知:#747
- 微调bigram、人名、机构名识别模型,修订繁体->台湾词典:#756 (comment)
- 数据包依然兼容data-for-1.5.3.zip: 国内网盘 或 海外連結
md5=cadc96db94c3df070855706bb0f8429e
获取最新版的数据包,请fork
一份并git clone https://github.com/YourName/HanLP.git
。
Portable版同步升级到v1.5.4
<dependency>
<groupId>com.hankcs</groupId>
<artifactId>hanlp</artifactId>
<version>portable-1.5.4</version>
</dependency>
🎉感谢所有在issue中提出宝贵建议的用户!
v1.5.3新年快乐
- 分词器多线程数默认系统CPU核心数
- 索引模式可选分词结果最小颗粒度:#670
- 识别带千位分隔符的数字,修复BaseNode中的toString()
- 微调人名识别模型、ngram;修订现代汉语补充词库、简繁词库
- 使word2vec命令行参数解析与原版兼容:#699
- 改正CRF的Tag方法:#703
- 修复word2vec缓存问题:#718
- 新词发现过滤使用LinkedList:#724
- 模型加载失败时统一
throw new IllegalArgumentException
,参考:#477 #116 - 数据包依然兼容data-for-1.5.3.zip: 国内网盘 或 海外連結
md5=cadc96db94c3df070855706bb0f8429e
获取最新版的数据包,请fork
一份并git clone https://github.com/YourName/HanLP.git
。
Portable版同步升级到v1.5.3
<dependency>
<groupId>com.hankcs</groupId>
<artifactId>hanlp</artifactId>
<version>portable-1.5.3</version>
</dependency>
🎉感谢所有contributors、所有在issue中提出宝贵建议的用户!