Skip to content
This repository has been archived by the owner on Nov 26, 2017. It is now read-only.

Latest commit

 

History

History
13 lines (7 loc) · 477 Bytes

README.md

File metadata and controls

13 lines (7 loc) · 477 Bytes

微信公众号语料库

部分网络抓取的微信公众号的文章,已经去除HTML,只包含了纯文本。每行一篇,是JSON格式,name是微信公众号名字,account是微信公众号ID,title是题目,content是正文。

数据用zip分卷压缩过的, 没有密码。预览可以看preview.json。

目前数据大约3G,数据会定期更新增加。

请只用于研究用途。

有问题或者特殊需求直接建Issue。

[email protected]