Crawler使用方法

使用说明

go install crawler.club/crawler
crawler --help

查看队列头数据（不从队列删除）

GET http://localhost:2001/api/data?peek=true

程序运营后在启动目录下会生成两个隐藏目录.rsslinks和.etlinks。这两个目录分别用作rss类型和web类型抓取的链接去重，避免重复抓取。

web类型的抓取抽取新文章的链接，是通过.etlinks的过滤来实现的，其基于的假设是：从列表页发现新的正文页的抓取模式，定期抓取列表页，抽取其中的所有链接，以前从未见过的链接作为新的文章链接。对于导航链接、广告链接等，在第一轮抓取的时候应该已经抓回，所以从第二轮开始应该都是新文章链接。