python练习,起因是看了一个晒老婆的nga帖子,就想写个脚本把图片都抓下来,送晒的人上雷霆崖,所以项目名称就叫ngamm
- 帖子地址写在
post_urls.txt
里面,一行一个,#
号开头的会被忽略 python ngamm.py
- 下载的图片保存在pictures文件夹中,文件夹名为帖子名称
专业python爬虫库有 scrapy
还有个叫beautiful_soup
的,类似于java的jsoup,解析dom树的
- 多个帖子用多进程,帖子中的多个url用多线程.multiprocess
- 增加日志装饰器
- 帖子名称是可以变的,要加判断