写在前面:
基于python版本3,使用BeautifulSoup和requests库。
因为近来成都的雾霾越来越严重,影响到的人群也是越来越多,一直想做一个PM2.5的统计,正好最近开始学习Python所有就拿它来练手了,新手不足之处还请指教。
正题:
对比了几个可以查历史数据的网站后,选取的网站是www.aqistudy.cn,此网站的数据易于Python抓取且来源于环保部官方数据,从最早2013年12月到现在的记录,历史数据页面如下图。
这次是爬取热门城市里的十个城市的历史数据并保持为CSV格式,分析页面源码可以看到模式如下。
从这个大的<div class="hot">
标签里循环每一个 <li>
标签即可以得到每个城市名以及城市的Url。
导入 python 库
首先导入用到的几个库:
起始网址:Url='https://www.aqistudy.cn/historydata/
为了防止网站针对爬虫的限制,把爬虫伪装成浏览器:headers = {
'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/55.0.2883.87 Safari/537.36'
}
抓取网址
再从抓取到的城市月数据网址开始抓取每月数据的网址:
获得 天气数据
最后把每个城市对应的详细数据写入到CSV文件保存即完成。
这里with open(path+'.csv', 'a+') as f:
,'a+'
是以追加的方式添加数据到CSV文件。
保存为 CSV
最后写一个循环来分别以 城市名.CSV 来保存到本地。
写在最后:
本人刚开始学Python,很多地方没有考虑周到,只实现了基本功能、代码也不够健壮,还请高手可以多指点!或许您的一句话可以让我等新手少走些许弯路!