Releases · hankcs/HanLP

18 Aug 14:49

hankcs

v1.2.11

343be37

v1.2.11常规维护

portable版使用pathSeparator分割路径，自动补全/后缀
调整繁簡字典
微调人名、机构名识别模型
调整字符正规化表，采用文本形式维护
动态开启用户词性后依然支持隐马词性标注
修复部分JVM上的自定义词性功能
小优化：对于核心词典已存在的词语,用户词典直接覆盖其属性
新版数据包：data-for-1.2.11.zip
Portable同步升级到v1.2.11，Maven：

        <dependency>
            <groupId>com.hankcs</groupId>
            <artifactId>hanlp</artifactId>
            <version>portable-1.2.11</version>
        </dependency>

Assets 3

21 Jun 11:22

hankcs

v1.2.10

f5c92a1

v1.2.10支持自定义词性

实现了用户自定义词性,同时支持代码动态增加和词典文件增加用户词性；请参考demo
实现了URL识别,支持包括".中国"在内的大部分IANA顶级域名
BinTrie实现了Externalizable接口,可直接序列化
修正BinTrie的remove方法
DoubleArrayTrie小优化
为NShortSegment添加用户词典功能
拼音词库修正

 回滚旧版简繁词典,调整简繁分词逻辑

人工校对了几个词语及词性
新版数据包：data-for-1.2.10.zip
Portable同步升级到v1.2.10，Maven：

        <dependency>
            <groupId>com.hankcs</groupId>
            <artifactId>hanlp</artifactId>
            <version>portable-1.2.10</version>
        </dependency>

Assets 3

17 Mar 23:24

hankcs

v1.2.9

975c225

v1.2.9常规维护

修正隐马模型转移矩阵隐状态总数的统计和转移概率的计算
地名识别算法微调
改进数词识别效果，修复数词识别导致的潜在问题
修复人名识别模块的问题
补充文档，整理代码
数据包依然兼容标准版data-for-1.2.8-standard.zip或完整版data-for-1.2.8-full.zip；海外用户请自由使用海外用户专用OneDrive链接
Portable同步升级到v1.2.9

<dependency>
  <groupId>com.hankcs</groupId>
  <artifactId>hanlp</artifactId>
  <version>portable-1.2.9</version>
</dependency>

Assets 3

31 Dec 04:11

hankcs

v1.2.8

f633dfe

v1.2.8新年快乐

TextRankKeyword新增了一些接口，优化堆排序以实现TopN
新增一个有趣的“同义改写”功能：DemoRewriteText
CoreStopWordDictionary支持自定义过滤逻辑
增强神经网络句法分析器对词表外词性的健壮性
允许用户在某些极端情况下（不标准的Java虚拟机，用户缺乏相关知识等）使用绝对路径下的配置文件
当用户词典与核心词典冲突时，进一步保证用户词典的优先级
微调了人名识别、机构名识别模型
微调了简繁转换词典
新版数据集：标准版data-for-1.2.8-standard.zip或完整版data-for-1.2.8-full.zip；海外用户请自由使用海外用户专用OneDrive链接
Portable同步升级到v1.2.8

<dependency>
  <groupId>com.hankcs</groupId>
  <artifactId>hanlp</artifactId>
  <version>portable-1.2.8</version>
</dependency>

Assets 3

11 Nov 12:08

hankcs

v1.2.7

55a0282

v1.2.7基于神经网络模型的依存句法分析器

新增基于神经网络分类模型与转移系统的判决式依存句法分析器NeuralNetworkDependencyParser和对应的模型文件
新增流式ByteArrayStream，反序列化时内存占用减半
CoNLLSentence支持for遍历
重构所有依存句法分析器
日本人名、机构名模型微调
新训练的CRF分词模型，与旧版本不兼容
新版数据包：data-for-1.2.7.zip
Portable同步升级到v1.2.7，Maven：

        <dependency>
            <groupId>com.hankcs</groupId>
            <artifactId>hanlp</artifactId>
            <version>portable-1.2.7</version>
        </dependency>

Assets 3

17 Oct 03:01

hankcs

v1.2.6

69fe720

v1.2.6用户词典优先级、CRF分词支持词典

改进：自定义词典的优先级高于核心词典
大幅补充了简繁分歧词典，对简繁转换和繁体中文分词支持更好
CoreStopWordDictionary不过滤null词性
为CRFSegment添加自定义词典支持
修复了BinTrie和SegmentWrapper的潜在问题
一些模型、词典的人工微调
数据包依然兼容data-for-1.2.4.zip

Assets 3

09 Sep 09:13

hankcs

v1.2.5

27158e3

v1.2.5繁体分词优化，CRF分词优化

新增加了一些工具，开放了对内部词库的动态读写
CRFModel支持BiGram Feature Template，成为通用的模型类
Suggester 增加removeAllSentences方法
优化繁体中文分词
优化CRF分词对标点的支持
数据包依然兼容data-for-1.2.4.zip

Assets 3

12 Jul 08:52

hankcs

v1.2.4

cf14be6

v1.2.4

调整用户词典作用为：分词后使用用户词典合并相邻词语
KeywordExtractor排除空格换行等
优化地名识别模块对短地名的处理
词典加载期间提供更人性化的报错信息
默认关闭字符正规化
求解两个数组中最相近的数更新到一种O(n)时间的算法
自动校验CoreNatureDictionary.ngram.txt的缓存与CoreNatureDictionary.txt的缓存的一致性
词典微调，最新数据集：data-for-1.2.4.zip
Portable同步升级到v1.2.4，Maven：

        <dependency>
            <groupId>com.hankcs</groupId>
            <artifactId>hanlp</artifactId>
            <version>portable-1.2.4</version>
        </dependency>

Assets 3

26 May 08:51

hankcs

v1.2.3

90cd0a5

v1.2.3支持字符规范化

增加了字符正规化功能，该配置项位于hanlp.properties中，通过Normalization=true来开启
调整平滑参数，使得两个节点的代价一定比一个大
数词自动合并：零○〇一二两三四五六七八九十廿百千万亿壹贰叁肆伍陆柒捌玖拾佰仟
防止原子分词造成图不连通
数据包依然兼容data-for-1.2.2.zip

Assets 3

11 May 06:11

hankcs

v1.2.2

ed7ff38

v1.2.2并行化分词

1.分词器全面支持并行化分词：

segment.enableMultithreading(true); // 或者 segment.enableMultithreading(4);

2.修复JDK7下TextRankKeyword可能触发的issue #11
3.数据包小幅调整，修复了CRF标点黏着的问题：data-for-1.2.2.zip
4.Portable同步升级到v1.2.2，Maven：

        <dependency>
            <groupId>com.hankcs</groupId>
            <artifactId>hanlp</artifactId>
            <version>portable-1.2.2</version>
        </dependency>

Assets 3

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Releases: hankcs/HanLP

v1.2.11常规维护

v1.2.10支持自定义词性

v1.2.9常规维护

v1.2.8新年快乐

v1.2.7基于神经网络模型的依存句法分析器

v1.2.6用户词典优先级、CRF分词支持词典

v1.2.5繁体分词优化，CRF分词优化

v1.2.4

v1.2.3支持字符规范化

v1.2.2并行化分词