NCP | 爬取国家卫健委网站

2020-11-29

0

tec

python

1. 前言 🇨🇳

1.1 目标网站

「http://www.nhc.gov.cn/xcs/yqtb/list_gzbd.shtml」

做疫情这个项目的时候，第一个要解决的就是「数据来源」的问题，想到的最权威的网站就是国家卫生健康委员会的网站了，一开始用requests尝试，失败了，接着用上了selenium模拟网页访问，顺利拿到了数据。

1.2 技术栈

python - selenium、pandas、re、echarts、matplotlib

2. 项目流程 🚗

🐛 数据获取 - selenium

使用谷歌浏览器时挂了，火狐就可以；爬取思路是进到列表页，访问每一个详情页，接着在详情页用元素定位的方法，去获得页面中包含疫情数据的文本。

🌲 文本解析 - re

爬取到的数据是文本形式的，因此我用了效率比较高的正则表达式，去从文本中提取数据，提取四个特征：确诊、治愈、死亡、新增确诊

📈 图表制作 - echarts、matplotlib

趋势图的制作分两种风格，尽力做到最好看。

chart_echart /matplotlib绘制/

chart_echart /echarts绘制/

打赏作者

微信

支付宝

python 421 字 2020-11-29