Releases: KKKKKKKEM/bricks
Releases · KKKKKKKEM/bricks
0.0.12
Full Changelog: 0.0.10...0.0.12
0.0.10
- 去除 SignPost 对象, 游标统一存放至种子信息内
- Download 节点支持 archive 配置, 为真时, 会将当前种子的游标存入种子后, 将队列内的种子替换为当前种子, 以便程序重启后可以继续
- 优化调度器的 Worker 名称编号获取
- 优化代理错误不增加重试次数匹配方法
- context 的 seeds, 在种子获取和投放时, 统一为 List[Item], 在爬取流程时, 统一为 Item
- submit 不再支持提交 request, 每个请求必须和种子相对应
- onRetry 支持 request.options 选项, $retainProxy 表示不更换代理次数, $maxRetry 表示到达这么多重试次数后, 删除种子, 默认为无穷大
- iterable 支持 collections.UserDict, Mapping 的强制转换
- request 新增 put_options 和 get_options 接口
- redisQueue 优化 replace 方法, 优化 remove 方法, 优化 get_permission 方法, 封装 publish 方法, 可以发布消息至频道, 优化消息格式
- 为了方便定制, 将Item 父类修改为 UserDict, 为了方便管理, 任务队列获取种子, 投放种子一律转换为 str
0.0.9
- submit 支持批量提交
- 修复 downloader 移动导致的一个 Bug
- 修复 form 爬虫 事件内翻页导致出问题的 Bug
- convert 组件不再接受 spider 类, 防止影响到原先的组件
- 基类代理实现单例模式, 防止出现多个链接
- render 节点支持 register_adapter
- 添加 Playwright 下载器, 解决调度器无法处理异步任务的 Bug,Playwright 支持 api 模式, 也就是直接使用浏览器发送请求, 而不是打开网页,可以快速提高请求速度,并且使用浏览器的指纹,支持并发,设置 Cookie,代理,请求头等常见配置,开放拦截器等等
- Cookie 支持处理字典类型
0.0.8
- 新增 require 函数, 装载后如果用户依赖包不符合会自动安装修改
- mongo 相关依赖确实不在报错与提示, 而是直接修改依赖
- 添加 clean rows 方法
- 两个配置式爬虫的三大节点支持 Layout 属性, 可用于清洗数据
- 添加 arrow 工具类,用于处理时间
- 初始化引擎添加 by sqlite 引擎,by redis 引擎
- 添加 CodeGenertor,用于生成动态代码
- 添加 scripts 脚本插件,包括 is success,turn page,inject
- storge 添加 to csv 方法,添加 to redis 方法
- 爬虫新增 survey 模式,可用于测试种子,可以拿到执行后的 Context,可以获取请求和响应,将 attrs 和 modded 分开, 防止被覆盖
- 调度器 worker 默认的 timeout 设置为 0,可以更快的关闭任务
- 优化代码, 为基类添加 plugins 属性, 可以列出已经注册好的插件
- 自定义 Cookie 类型,添加 pycurl 下载器,添加 go requests 下载器,添加 requests 下载器
- 将 signals 修改为BaseException类型, 防止被用户轻易捕捉到
- 优化调度器解决高频启动可能导致的卡死问题,调度器停止的时候清空部分属性
- 添加 launch方法, 用于提交到本地的定时调度器运行
- 添加定时调度器
- 将 Context 移动之 core 目录,单独分离出一个 queues 包
- 新增 Collector, 用于收集数据后批量处理
- 移除 Download 节点至 form,使用工具类进行转换
- 添加 convert 组件,支持: request -> response; response -> items;网页源码 / dict / list 等 根据规则 -> items;curl 转 response
- Downloader 新增一个 fetch curl 的方法
- 优化 Header
- 新增 initContext,支持 Put Seeds 相关事件,Context 新增 error 接口
0.0.7
- 添加 mongo 初始化引擎,mongo 存储引擎(可选安装)
- 添加 csv 生产引擎
- 添加 sqllite 存储引擎
- 添加 csv 相关工具,Reader 和 Writer,部分接口 sqllite
- 优化 sqllite 工具类
- 添加 fake ua 组件
- 修复初始化权限中的一个 Bug
- 开放 install 接口,目前用于注册事件
- 事件优化,支持移动位置和取消
- 优化 Context 类,支持获取当前正在消费的 Context
- 新增 template 类型爬虫
- 其他一系列小优化