Skip to content

Releases: hankcs/HanLP

v1.6.7模型默认训练自微软研究院语料库修订版

13 Aug 17:14
Compare
Choose a tag to compare
  • 默认感知机分词模型训练自 MSRA Named Entity Corpus
  • 词法分析器在低优先级用户词典模式下合并统计分词结果,高优先级模式则最长匹配
  • 词法分析器用户词典覆盖词性标注器的结果:#525
  • 改进人名UV拆分 fix #880
  • 修复 MaxEntDependencyParser fix #914
  • 新增TF和TF-IDF统计与关键词提取工具
  • word2vec适配IOAdapter与集群 fix #903
  • HanLP.extractWords增加更多参数
  • 新增NERTrainer.tagSet成员,方便Python用户
  • Sentence新增更多语料操作接口
  • LinearModel显示压缩进度
  • 微调人名、bigram等模型
  • 修订简繁词典,根据国家统计局2016行政区划数据校订地名词典
  • 新数据包data-for-1.6.7.zip md5=4da338b7bcf3939a70b8cc16ed338c45
  • Portable版同步升级到v1.6.7
        <dependency>
            <groupId>com.hankcs</groupId>
            <artifactId>hanlp</artifactId>
            <version>portable-1.6.7</version>
        </dependency>

🎉感谢所有在issue中提出宝贵建议的用户!

v1.6.6解码快10倍的CRF词法分析器

02 Jul 09:45
Compare
Choose a tag to compare
  • CRF模型重构为对数线性模型,复用感知机框架的维特比解码算法,速度提高10倍
    speed
  • 正式废弃CRFSegment,删除CRFSegmentModel.txt.bin
  • 句法分析器默认使用NLPTokenizer
  • 修复新Nature框架下角色标注机构名识别问题:#870
  • 新旧模型不兼容,请下载新数据包data-for-1.6.6.zip md5=aea7194670d89f920d59a592568c88ad
  • Portable版同步升级到v1.6.6
        <dependency>
            <groupId>com.hankcs</groupId>
            <artifactId>hanlp</artifactId>
            <version>portable-1.6.6</version>
        </dependency>

🎉感谢所有在issue中提出宝贵建议的用户!

v1.6.5跨平台稳定的自定义词性

25 Jun 06:56
Compare
Choose a tag to compare
Pre-release

Pre-release测试版

  1. 重构Nature枚举为类,避免反射,兼容最新JDK:#866
  2. 新增感知机分类器,基于此实现人名性别识别
  3. 新增一阶、二阶HMM
  4. 新增中文分词评测工具
  5. 支持使用环境变量HANLP_ROOT来代替hanlp.properties中的root
  6. IOUtil读取空白文件时的稳定性,兼容 UTF8 file with BOM
  7. IOUtil.loadDictionary支持标记整个词典的默认词性
  8. DoubleArrayTrieSegment和AhoCorasickDoubleArrayTrieSegment支持构造自词典路径
  9. 修正感知机词法分析器在不进行命名实体识别时对字符的正规化 @wangzhe258369
  10. 微调人名识别模型、删除错误词条
  11. 修订CharTable,删除橙子和橘子的不合理的转换 @linuxsong
  12. 数据包 data-for-1.6.4.zip md5=8b5b944f89c4052d0552bf8ad7479010
    获取最新版的数据包,请forkgit clone一份仓库中的最新data。
  13. Portable版同步升级到v1.6.5
        <dependency>
            <groupId>com.hankcs</groupId>
            <artifactId>hanlp</artifactId>
            <version>portable-1.6.5</version>
        </dependency>

🎉感谢所有在issue中提出宝贵建议的用户!

v1.6.4常规维护

21 May 02:19
Compare
Choose a tag to compare
  1. 优化CorpusLoader、优化MutableFeatureMap的设计
  2. 优化新词发现,使结果不含分隔符:#826
  3. TextRank提取关键词提升算法速度 @hlstudio
  4. 用户词典热更新时支持.csv @patrick_lin
  5. 增强词向量读取时的健壮性:#821
  6. 根据百度汉语和在线辞海修正拼音词典 @AnyListen
  7. 修订停用词词典 @duohappy
  8. 修复词法分析器禁用用户词典时发生的问题、修复词法分析器seg接口与命名实体识别的配合问题:https://github.com/hankcs/pyhanlp/issues/15#issuecomment-382583304 、修正结构化感知机多线程平均的问题
  9. 微调人名识别模型、新增月份词汇
  10. 数据包 data-for-1.6.4.zip md5=8b5b944f89c4052d0552bf8ad7479010
    获取最新版的数据包,请forkgit clone一份仓库中的最新data。
  11. Portable版同步升级到v1.6.4
        <dependency>
            <groupId>com.hankcs</groupId>
            <artifactId>hanlp</artifactId>
            <version>portable-1.6.4</version>
        </dependency>

🎉感谢所有在issue中提出宝贵建议的用户!

v1.6.3支持动态用户词典、自定义词性与优先级

14 Apr 19:03
Compare
Choose a tag to compare
  1. 词法分析器支持CustomDictionary.insert动态插入的用户词条
  2. 词法分析器支持用户词典中的自定义词性
  3. 词法分析器支持enableCustomDictionaryForcing提高用户词典优先级
  4. NLPTokenizer默认使用感知机词法分析器
  5. 完善圆圈数字对应关系 @AnyListen
  6. 开放命名实体识别的特征提取方法
  7. TextRankKeyword使用CoreStopWordDictionary的过滤器
  8. 删除人名识别中的BXD模式,优化日本人名识别
  9. 修复ViterbiSegment激活多个配置项带来的问题
  10. 微调bigram、微调人名识别模型
  11. 数据包兼容 data-for-1.6.2.zip md5=3ebb9e47ecff740f09c9ec7c21324661
    获取最新版的数据包,请forkgit clone一份仓库中的最新data。
  12. Portable版同步升级到v1.6.3
        <dependency>
            <groupId>com.hankcs</groupId>
            <artifactId>hanlp</artifactId>
            <version>portable-1.6.3</version>
        </dependency>

🎉感谢所有在issue中提出宝贵建议的用户!

v1.6.2词法分析器支持词典、简繁和索引模式

01 Apr 19:55
Compare
Choose a tag to compare
  1. 所有词法分析器都支持用户词典、简繁、offset与全切分索引模式(需更新模型与CharTable)
  2. CRF分词升级到CRF词法分析器,支持训练,与CRF++兼容
  3. 重构词法分析器,提供统一的接口。
  4. HanLP.newSegment支持传入算法名称构造相应的分词器
  5. Sentence支持翻译词性,方便记不住词性短码的初级用户
  6. Sentence支持输出brat standoff format:http://brat.nlplab.org/standoff.html
  7. 修复DoubleArrayTrie的LongestSearcher
  8. 修订词库、修订CharTable、微调人名识别模型,解决:#772
  9. 新数据包 data-for-1.6.2.zip md5=3ebb9e47ecff740f09c9ec7c21324661
    获取最新版的数据包,请forkgit clone一份仓库中的最新data。
  10. Portable版同步升级到v1.6.2
        <dependency>
            <groupId>com.hankcs</groupId>
            <artifactId>hanlp</artifactId>
            <version>portable-1.6.2</version>
        </dependency>

🎉感谢所有在issue中提出宝贵建议的用户!

v1.6.1常规维护

23 Mar 16:19
Compare
Choose a tag to compare
  1. 感知机分词性能评估、修正感知机词法分析器在空白字符串时的问题
  2. 感知机命名实体识别支持任意NER类型、开放词法分析器CWS、POS和NER的getter
  3. 修复MutableDoubleArrayTrieInteger遍历时可能产生的问题
  4. 优化角色标注人名识别的启发式规则
  5. 文本分句支持颗粒度
  6. 微调bigram、人名识别模型
  7. 依然兼容数据包 data-for-1.6.0.zip md5=38d19afa881ddb00b213f4680259ce68
    获取最新版的数据包,请fork一份并git clone https://github.com/YourName/HanLP.git
  8. Portable版同步升级到v1.6.1
        <dependency>
            <groupId>com.hankcs</groupId>
            <artifactId>hanlp</artifactId>
            <version>portable-1.6.1</version>
        </dependency>

🎉感谢所有在issue中提出宝贵建议的用户!

v1.6.0感知机词法分析器,动态双数组trie树

15 Mar 23:40
Compare
Choose a tag to compare
  1. 🚩《基于感知机的中文分词、词性标注与命名实体识别框架》
  2. 🚩《动态双数组trie树》
  3. 新数据包 data-for-1.6.0.zip md5=38d19afa881ddb00b213f4680259ce68
    获取最新版的数据包,请fork一份并git clone https://github.com/YourName/HanLP.git
  4. Portable版同步升级到v1.6.0
        <dependency>
            <groupId>com.hankcs</groupId>
            <artifactId>hanlp</artifactId>
            <version>portable-1.6.0</version>
        </dependency>

🎉感谢所有在issue中提出宝贵建议的用户!

v1.5.4常规维护

16 Feb 18:06
Compare
Choose a tag to compare
  1. 优化DoubleArrayTrieSegment的效率
  2. 废弃CRFDependencyParser:#730
  3. 改正CRF的Tag方法:#703 (comment)
  4. 加载核心词典词性转移矩阵失败时以IllegalArgumentException方式通知:#747
  5. 微调bigram、人名、机构名识别模型,修订繁体->台湾词典:#756 (comment)
  6. 数据包依然兼容data-for-1.5.3.zip: 国内网盘海外連結 md5=cadc96db94c3df070855706bb0f8429e
    获取最新版的数据包,请fork一份并git clone https://github.com/YourName/HanLP.git

Portable版同步升级到v1.5.4

        <dependency>
            <groupId>com.hankcs</groupId>
            <artifactId>hanlp</artifactId>
            <version>portable-1.5.4</version>
        </dependency>

🎉感谢所有在issue中提出宝贵建议的用户!

v1.5.3新年快乐

31 Dec 04:09
Compare
Choose a tag to compare
  1. 分词器多线程数默认系统CPU核心数
  2. 索引模式可选分词结果最小颗粒度:#670
  3. 识别带千位分隔符的数字,修复BaseNode中的toString()
  4. 微调人名识别模型、ngram;修订现代汉语补充词库、简繁词库
  5. 使word2vec命令行参数解析与原版兼容:#699
  6. 改正CRF的Tag方法:#703
  7. 修复word2vec缓存问题:#718
  8. 新词发现过滤使用LinkedList:#724
  9. 模型加载失败时统一throw new IllegalArgumentException,参考:#477 #116
  10. 数据包依然兼容data-for-1.5.3.zip: 国内网盘海外連結 md5=cadc96db94c3df070855706bb0f8429e
    获取最新版的数据包,请fork一份并git clone https://github.com/YourName/HanLP.git

Portable版同步升级到v1.5.3

        <dependency>
            <groupId>com.hankcs</groupId>
            <artifactId>hanlp</artifactId>
            <version>portable-1.5.3</version>
        </dependency>

🎉感谢所有contributors、所有在issue中提出宝贵建议的用户!