Skip to content

v1.7.5《自然语言处理入门》随书代码

Compare
Choose a tag to compare
@hankcs hankcs released this 17 Oct 02:20
· 597 commits to master since this release

img

一本零起点NLP入门书,基础理论与生产代码并重,Python与Java双实现。从基本概念出发,逐步介绍中文分词、词性标注、命名实体识别、信息抽取、文本聚类、文本分类、句法分析这几个热门问题的算法原理与工程实现。书中通过对多种算法的讲解,比较了它们的优缺点和适用场景,同时详细演示生产级成熟代码,助你真正将自然语言处理应用在生产环境中。《自然语言处理入门》由南方科技大学数学系创系主任夏志宏、微软亚洲研究院副院长周明、字节跳动人工智能实验室总监李航、华为诺亚方舟实验室语音语义首席科学家刘群、小米人工智能实验室主任兼NLP首席科学家王斌、中国科学院自动化研究所研究员宗成庆、清华大学副教授刘知远、北京理工大学副教授张华平和52nlp作序推荐。感谢各位前辈老师,希望这个项目和这本书能成为大家工程和学习上的“蝴蝶效应”,帮助大家在NLP之路上蜕变成蝶。

  • 论坛蝴蝶效应上线!限时开放注册,用于交流讨论HanLP使用方法和读者反馈,格式比GitHub自由
  • DocVectorModel支持自定义分词器、开/关停用词过滤器 fix #1253 (comment)
  • 将换行空格等视作CT_OTHER fix #1283
  • 修复repeated bisection聚类算法 fix #1260 (comment)
  • 让CoreStopWordDictionary.apply返回结果
  • 修复Analyzer的enableCustomDictionaryForcing方法 fix #1221
  • 新数据包data-for-1.7.5.zip分流 md5=1d9e1be4378b2dbc635858d9c3517aaa
  • Portable版同步升级到v1.7.5
        <dependency>
            <groupId>com.hankcs</groupId>
            <artifactId>hanlp</artifactId>
            <version>portable-1.7.5</version>
        </dependency>

🎉感谢所有在issue中提出宝贵建议的用户!