NCP | 爬取国家卫健委网站
1. 前言 🇨🇳
1.1 目标网站
「http://www.nhc.gov.cn/xcs/yqtb/list_gzbd.shtml」
做疫情这个项目的时候,第一个要解决的就是「数据来源」的问题,想到的最权威的网站就是国家卫生健康委员会的网站了,一开始用requests尝试,失败了,接着用上了selenium模拟网页访问,顺利拿到了数据。
1.2 技术栈
python - selenium、pandas、re、echarts、matplotlib
2. 项目流程 🚗
🐛 数据获取 - selenium
使用谷歌浏览器时挂了,火狐就可以;爬取思路是进到列表页,访问每一个详情页,接着在详情页用元素定位的方法,去获得页面中包含疫情数据的文本。
🌲 文本解析 - re
爬取到的数据是文本形式的,因此我用了效率比较高的正则表达式,去从文本中提取数据,提取四个特征:确诊、治愈、死亡、新增确诊
📈 图表制作 - echarts、matplotlib
趋势图的制作分两种风格,尽力做到最好看。
/matplotlib绘制/
/echarts绘制/