仓库描述

免责声明：

本仓库的所有内容仅供学习和参考之用，禁止用于商业用途。任何人或组织不得将本仓库的内容用于非法用途或侵犯他人合法权益。本仓库所涉及的爬虫技术仅用于学习和研究，不得用于对其他平台进行大规模爬虫或其他非法行为。对于因使用本仓库内容而引起的任何法律责任，本仓库不承担任何责任。使用本仓库的内容即表示您同意本免责声明的所有条款和条件。

仓库描述

小红书爬虫，抖音爬虫， 快手爬虫， B站爬虫， 微博爬虫...。
目前能抓取小红书、抖音、快手、B站、微博的视频、图片、评论、点赞、转发等信息。

原理：利用playwright搭桥，保留登录成功后的上下文浏览器环境，通过执行JS表达式获取一些加密参数通过使用此方式，免去了复现核心加密JS代码，逆向难度大大降低

爬虫技术交流群：949715256，同时欢迎大家贡献代码提交PR

目前爬虫正在用的IP代理：极速HTTP代理新用户注册认证最高送12000IP，0元试用

功能列表

平台	Cookie 登录	二维码登录	手机号登录	关键词搜索	指定视频/帖子 ID 爬取	登录状态缓存	数据保存	IP 代理池	滑块验证码
小红书	✅	✅	✅	✅	✅	✅	✅	✅	✕
抖音	✅	✅	✅	✅	✅	✅	✅	✅	✅
快手	✅	✅	✕	✅	✅	✅	✅	✅	✕
B 站	✅	✅	✕	✅	✅	✅	✅	✅	✕
微博	✅	✅	✕	✅	✅	✅	✅	✅	✕

使用方法

创建并激活 python 虚拟环境

# 进入项目根目录
cd MediaCrawler

# 创建虚拟环境
python3 -m venv venv

# macos & linux 激活虚拟环境
source venv/bin/activate

# windows 激活虚拟环境
venv\Scripts\activate

安装依赖库

pip3 install -r requirements.txt

安装 playwright浏览器驱动

playwright install

运行爬虫程序

# 从配置文件中读取关键词搜索相关的帖子并爬去帖子信息与评论
python3 main.py --platform xhs --lt qrcode --type search

# 从配置文件中读取指定的帖子ID列表获取指定帖子的信息与评论信息
python3 main.py --platform xhs --lt qrcode --type detail

# 打开对应APP扫二维码登录
  
# 其他平台爬虫使用示例, 执行下面的命令查看
python3 main.py --help

数据保存

支持保存到关系型数据库（Mysql、PgSQL等）
支持保存到csv中（data/目录下）

如何使用 IP 代理

➡️➡️➡️ IP代理使用方法

运行报错常见问题Q&A

➡️➡️➡️ 常见问题

项目代码结构

➡️➡️➡️ 项目代码结构说明

手机号登录说明

➡️➡️➡️ 手机号登录说明

打赏

如果觉得项目不错的话可以打赏哦。您的支持就是我最大的动力！

打赏时您可以备注名称，我会将您添加至打赏列表中。

捐赠信息

PS：如果打赏时请备注捐赠者，如有遗漏请联系我添加（有时候消息多可能会漏掉，十分抱歉）

捐赠者	捐赠金额	捐赠日期
邝*元	20 元	2023-12-29
50chen	50 元	2023-12-22
xiongot	20 元	2023-12-17
atom.hu	20 元	2023-12-16
一呆	20 元	2023-12-01
坠落	50 元	2023-11-08

star 趋势图

如果该项目对你有帮助，star一下 ❤️❤️❤️

参考

xhs客户端 ReaJason的xhs仓库
短信转发参考仓库
内网穿透工具 ngrok

Name		Name	Last commit message	Last commit date
Latest commit History 109 Commits
base		base
config		config
docs		docs
libs		libs
media_platform		media_platform
models		models
proxy		proxy
static/images		static/images
test		test
tools		tools
.gitattributes		.gitattributes
.gitignore		.gitignore
LICENSE		LICENSE
README.md		README.md
db.py		db.py
main.py		main.py
mypy.ini		mypy.ini
recv_sms_notification.py		recv_sms_notification.py
requirements.txt		requirements.txt
var.py		var.py

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

仓库描述

功能列表

使用方法

创建并激活 python 虚拟环境

安装依赖库

安装 playwright浏览器驱动

运行爬虫程序

数据保存

如何使用 IP 代理

运行报错常见问题Q&A

项目代码结构

手机号登录说明

打赏

捐赠信息

star 趋势图

参考

About

Releases

Packages

Languages

License

Danny0802/MediaCrawler

Folders and files

Latest commit

History

Repository files navigation

仓库描述

功能列表

使用方法

创建并激活 python 虚拟环境

安装依赖库

安装 playwright浏览器驱动

运行爬虫程序

数据保存

如何使用 IP 代理

运行报错常见问题Q&A

项目代码结构

手机号登录说明

打赏

捐赠信息

star 趋势图

参考

About

Resources

License

Stars

Watchers

Forks

Releases

Packages 0

Languages

Packages