-
Notifications
You must be signed in to change notification settings - Fork 9
Commit
This commit does not belong to any branch on this repository, and may belong to a fork outside of the repository.
providing better description to usage, correcting grammar
- Loading branch information
Showing
1 changed file
with
5 additions
and
4 deletions.
There are no files selected for viewing
This file contains bidirectional Unicode text that may be interpreted or compiled differently than what appears below. To review, open the file in an editor that reveals hidden Unicode characters.
Learn more about bidirectional Unicode characters
Original file line number | Diff line number | Diff line change |
---|---|---|
@@ -1,22 +1,23 @@ | ||
# tiebaSpider | ||
|
||
获取百度贴吧帖子的所有评论,包括楼中楼,将保存为JSON、HTML两种格式,并根据用户名合并所有连续帖子方便阅读。 | ||
程序获取百度贴吧帖子的所有评论,包括所有楼中楼,以HTML和JSON为格式保存到本地,同时合并所有楼层连续、发帖人相同帖子方便阅读。 | ||
|
||
程序从当前目录`url.txt`中获取贴吧URL,并支持本地已保存的JSON文件,格式参考`url.txt`已有的URL。 | ||
需要获取的帖子在`url.txt`中逐行指定。程序读取程序所在目录下的文件`url.txt`获取贴吧URL,逐行爬取URL指向的帖子。除了http协议的URL之外还支持file协议。此功能主要用于程序。验证程序功能或者调整HTML模板样式。程序将从本地已保存的JSON文件生成HTML,file协议格式参考`url.txt`已有的URL。 | ||
|
||
程序从目录`template/template1.html`读取HTML模板,以提取的网页标题作为文件名,并加以`file_`前缀把结果保存至`output`文件夹。 | ||
HTML格式的文件样式由`template/template1.html`的HTML模板指定。所有已提取的帖子将命名为`file_{帖子主题}.{json,html}`保存至程序所在目录下的`output`文件夹。 | ||
|
||
## 特点 | ||
|
||
程序采用Go语言编写,利用goroutine同时获取、解析和渲染页面,各类goroutine的数量可以在`main.go`文件调整。 | ||
|
||
## 模板 | ||
|
||
可以参考已有的`template/template1.html`编写自己的HTML模板,模板的数据可参考`type.go`的`TemplateField`定义。 | ||
可以参考已有的`template/template1.html`编写自己的HTML模板以调整生成的HTML文件。模板的所有可指定的数据参考`type.go`的`TemplateField`定义。 | ||
|
||
## 后续工作 | ||
|
||
筛选水贴,包括: | ||
|
||
- 相似、重复内容的帖子 | ||
- 信息量低的帖子(例如: "太棒了", "1000楼", "[滑稽]", "人工置顶大法好", " ۣۣۖۖۖิۖิิ ۣۣۖۖ ۖ ۣۣۖۖิ ۖิิۣۣۖۖۖิۖิิ ۣۣۖۖ ۖ ۣۣۖۖ ۖ ۣۣۖۖิ ۖิิۣۣۖۖิ ۖิิۣۣۖۖۖิۖิิ ۣۣۖۖ ۖ ۣۣิۣۣۣۖۖۖิۖิิ ۣۣۖۖ") | ||
- 一并下载帖子内的所有图片,重写所有图片URL地址指向为本地文件相对地址 |