coronavirus-analysis

主要文件和使用说明

文件	说明
dxy_crawler.py	爬取疫情实时数据，需要不停开着电脑爬，否则会丢失数据，爬取的最新数据在 data/dxy_data_recent.* 中，以及原始 html 数据；若有数据丢失、在补充全 html 后，或需要通过原始数据重新构造疫情数据，将 run_mode 改为 init 可以重新构造数据
huiyan_crawler.py	爬取百度迁徙数据，每天执行一次，可爬取上一天的全国各地人口迁徙数据
calc_corr.py	通过每日新增确诊人数和人流数据计算论文中的相关系数，需要修改代码中的日期，并确保所需数据已经爬取到
weather_crawler.py	爬取和处理历史天气数据，每天执行一次，可爬取上一天的全国各地天气
run_all.py	依次执行 huiyan_crawler.py、calc_corr.py、weather_crawler.py 的爬虫或计算程序，需要修改代码中的日期，并确保所需的每日新增数据已经获取到、百度迁徙数据能够爬取到
data 目录	html 目录下存放爬虫的原始页面、original 目录下存放原始的地区信息数据
original_data_processor.py	将 original 目录下的原始的地区信息数据处理成便于分析的数据，目前有输出到 data 目录下“全国各地*.csv”的几个文件
util.py	公共方法类 Util 等
config.ini	全局配置
coronavirus_analyzer.py	疫情分析类
cache/not_shift_one_day 目录	目录下的是人流风险系数的计算结果（不额外偏移1天，用于数据分析）（实时计算速度慢，相应代码有变化需要删除缓存文件）
cache/shift_one_day 目录	目录下的是人流风险系数的计算结果（额外偏移1天，用于疫情预测）（实时计算速度慢，相应代码有变化需要删除缓存文件）
论文目录	相关论文，发表版：https://publichealth.jmir.org/2020/2/e18638/

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

README.md

README.md

coronavirus-analysis

主要文件和使用说明

Files

README.md

Latest commit

History

README.md

File metadata and controls

coronavirus-analysis

主要文件和使用说明