diff --git a/README.md b/README.md index 5c7be4d..d8f4790 100644 --- a/README.md +++ b/README.md @@ -1,10 +1,10 @@ # tiebaSpider -获取百度贴吧帖子的所有评论,包括楼中楼,将保存为JSON、HTML两种格式,并根据用户名合并所有连续帖子方便阅读。 +程序获取百度贴吧帖子的所有评论,包括所有楼中楼,以HTML和JSON为格式保存到本地,同时合并所有楼层连续、发帖人相同帖子方便阅读。 -程序从当前目录`url.txt`中获取贴吧URL,并支持本地已保存的JSON文件,格式参考`url.txt`已有的URL。 +需要获取的帖子在`url.txt`中逐行指定。程序读取程序所在目录下的文件`url.txt`获取贴吧URL,逐行爬取URL指向的帖子。除了http协议的URL之外还支持file协议。此功能主要用于程序。验证程序功能或者调整HTML模板样式。程序将从本地已保存的JSON文件生成HTML,file协议格式参考`url.txt`已有的URL。 -程序从目录`template/template1.html`读取HTML模板,以提取的网页标题作为文件名,并加以`file_`前缀把结果保存至`output`文件夹。 +HTML格式的文件样式由`template/template1.html`的HTML模板指定。所有已提取的帖子将命名为`file_{帖子主题}.{json,html}`保存至程序所在目录下的`output`文件夹。 ## 特点 @@ -12,7 +12,7 @@ ## 模板 -可以参考已有的`template/template1.html`编写自己的HTML模板,模板的数据可参考`type.go`的`TemplateField`定义。 +可以参考已有的`template/template1.html`编写自己的HTML模板以调整生成的HTML文件。模板的所有可指定的数据参考`type.go`的`TemplateField`定义。 ## 后续工作 @@ -20,3 +20,4 @@ - 相似、重复内容的帖子 - 信息量低的帖子(例如: "太棒了", "1000楼", "[滑稽]", "人工置顶大法好", " ۣۣۖۖۖิۖิิ ۣۣۖۖ ۖ ۣۣۖۖิ ۖิิۣۣۖۖۖิۖิิ ۣۣۖۖ ۖ ۣۣۖۖ ۖ ۣۣۖۖิ ۖิิۣۣۖۖิ ۖิิۣۣۖۖۖิۖิิ ۣۣۖۖ ۖ ۣۣิۣۣۣۖۖۖิۖิิ ۣۣۖۖ") +- 一并下载帖子内的所有图片,重写所有图片URL地址指向为本地文件相对地址