Skip to content
This repository has been archived by the owner on Nov 26, 2017. It is now read-only.

willianzhao/weixin_public_corpus

 
 

Repository files navigation

微信公众号语料库

部分网络抓取的微信公众号的文章,已经去除HTML,只包含了纯文本。每行一篇,是JSON格式,name是微信公众号名字,account是微信公众号ID,title是题目,content是正文。

数据用zip分卷压缩过的, 没有密码。预览可以看preview.json。

目前数据大约3G,数据会定期更新增加。

请只用于研究用途。

有问题或者特殊需求直接建Issue。

[email protected]

About

微信公众号语料库

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published