Skip to content

Commit

Permalink
Update README.md
Browse files Browse the repository at this point in the history
providing better description to usage, correcting grammar
  • Loading branch information
hjhee authored May 15, 2019
1 parent 91a969d commit 4dcc80b
Showing 1 changed file with 5 additions and 4 deletions.
9 changes: 5 additions & 4 deletions README.md
Original file line number Diff line number Diff line change
@@ -1,22 +1,23 @@
# tiebaSpider

获取百度贴吧帖子的所有评论,包括楼中楼,将保存为JSON、HTML两种格式,并根据用户名合并所有连续帖子方便阅读
程序获取百度贴吧帖子的所有评论,包括所有楼中楼,以HTML和JSON为格式保存到本地,同时合并所有楼层连续、发帖人相同帖子方便阅读

程序从当前目录`url.txt`中获取贴吧URL,并支持本地已保存的JSON文件,格式参考`url.txt`已有的URL。
需要获取的帖子在`url.txt`中逐行指定。程序读取程序所在目录下的文件`url.txt`获取贴吧URL,逐行爬取URL指向的帖子。除了http协议的URL之外还支持file协议。此功能主要用于程序。验证程序功能或者调整HTML模板样式。程序将从本地已保存的JSON文件生成HTML,file协议格式参考`url.txt`已有的URL。

程序从目录`template/template1.html`读取HTML模板,以提取的网页标题作为文件名,并加以`file_`前缀把结果保存至`output`文件夹。
HTML格式的文件样式由`template/template1.html`的HTML模板指定。所有已提取的帖子将命名为`file_{帖子主题}.{json,html}`保存至程序所在目录下的`output`文件夹。

## 特点

程序采用Go语言编写,利用goroutine同时获取、解析和渲染页面,各类goroutine的数量可以在`main.go`文件调整。

## 模板

可以参考已有的`template/template1.html`编写自己的HTML模板,模板的数据可参考`type.go``TemplateField`定义。
可以参考已有的`template/template1.html`编写自己的HTML模板以调整生成的HTML文件。模板的所有可指定的数据参考`type.go``TemplateField`定义。

## 后续工作

筛选水贴,包括:

- 相似、重复内容的帖子
- 信息量低的帖子(例如: "太棒了", "1000楼", "[滑稽]", "人工置顶大法好", " ۣۣۖۖۖิۖิิ ۣۣۖۖ ۖ ۣۣۖۖิ ۖิิۣۣۖۖۖิۖิิ ۣۣۖۖ ۖ ۣۣۖۖ ۖ ۣۣۖۖิ ۖิิۣۣۖۖิ ۖิิۣۣۖۖۖิۖิิ ۣۣۖۖ ۖ ۣۣิۣۣۣۖۖۖิۖิิ ۣۣۖۖ")
- 一并下载帖子内的所有图片,重写所有图片URL地址指向为本地文件相对地址

0 comments on commit 4dcc80b

Please sign in to comment.