NCP | 爬取国家卫健委网站

1. 前言 🇨🇳

1.1 目标网站

http://www.nhc.gov.cn/xcs/yqtb/list_gzbd.shtml

​ 做疫情这个项目的时候,第一个要解决的就是「数据来源」的问题,想到的最权威的网站就是国家卫生健康委员会的网站了,一开始用requests尝试,失败了,接着用上了selenium模拟网页访问,顺利拿到了数据。

1.2 技术栈

python - selenium、pandas、re、echarts、matplotlib

2. 项目流程 🚗

🐛 数据获取 - selenium

使用谷歌浏览器时挂了,火狐就可以;爬取思路是进到列表页,访问每一个详情页,接着在详情页用元素定位的方法,去获得页面中包含疫情数据的文本。

image-20201129141538448

🌲 文本解析 - re

爬取到的数据是文本形式的,因此我用了效率比较高的正则表达式,去从文本中提取数据,提取四个特征:确诊、治愈、死亡、新增确诊

image-20201129141228670

📈 图表制作 - echarts、matplotlib

趋势图的制作分两种风格,尽力做到最好看。

chart_echart/matplotlib绘制/

chart_echart/echarts绘制/


421 字