用scrapy框架写的京东爬虫,可以抓取京东商品信息和评论
#2、抓取到的数据属性如下所示
##商品数据
##评论数据
#3、使用说明:
##(1)抓取商品信息和抓取评论分别写在了两个不同的爬虫里
抓取商品信息代码在jd_home.py中,数据库在setting.py中修改ITEM_PIPELINES,使用MySQLPipeline
抓取评论代码在jd_comment.py中,数据库在setting.py中修改ITEM_PIPELINES,使用CommentPipeline
##(2)setting.py文件
默认开启了代理IP,因为IP的存活期的限制,要定期更新PROXIES中IP信息,可从网站:http://www.xicidaili.com/ 中找免费的代理IP
如果不想使用代理IP,可以将DOWNLOADER_MIDDLEWARES代码注释掉
数据库的配置:
在使用本爬虫中,因为在抓取评论信息时需要用到goods.xls文件。因此需要先抓取商品信息,然后将商品信息的相关内容导出到goods.xls中(这里提供了一个goods.xls的格式供参考)
goods.xls格式:第1列:商品ID,第2列:商品评论数;第3列:商品的commentVersion
在一个工程中,抓取商品信息和抓取评论信息不能同时进行。
更多爬虫的细节可以参考我的博客文章:
##有问题欢迎留言