Python简单两步实现天气爬虫采集器_北京千锋IT培训

千锋教育-做有情怀、有良心、有品质的职业教育机构

400-811-9990

手机站

千锋教育

千锋学习站 | 随时随地免费学

千锋教育

扫一扫进入千锋手机站

首页课程

HTML5

Java

Python

云计算

软件测试

网络安全

大数据

物联网

Unity

UI/UE设计

全媒体营销

影视剪辑

游戏原画

区块链

产品经理

商业插画

PMP认证

红帽RHCE

软考认证

华为认证

教程
HTML5视频教程 Java视频教程 Python视频教程 UI视频教程云计算视频教程软件测试视频教程大数据视频教程物联网视频教程 Unity视频教程网络安全视频教程全媒体视频教程影视剪辑视频教程
教研
教研院师资团队项目大赛
服务
企业内训高校合作学科共建
就业
就业服务双选会上门招聘人才定制
问答资讯技术干货 IT培训机构零基础学IT 关于千锋
千锋简介联系我们锋益公益大赛组织品牌活动

当前位置：北京千锋IT培训 > 技术干货 > Python技术干货 > Python简单两步实现天气爬虫采集器

Python简单两步实现天气爬虫采集器

来源：千锋教育

发布人：xqq

时间： 2023-11-05 19:06:14

说道爬虫大家或许感觉非常神秘，其实它没有我们想象的那么神奇(当然，google和baidu的爬虫是一场复杂和强大的，它的强大不是爬虫本身强大，而是后台的数据处理和数据挖掘算法非常强大)，今天我们就来揭开它神秘的面纱。呵呵，简单两步就可以实现一个网页天气爬虫程序。。。

爬虫简单说来包括两个部分：1.获得网页文本信息。2.数据分析，获取其中我们想要的数据。

1、获得网页文本信息。

python在获取html方面十分方便，有了urllib库的帮助，只需要几行代码就可以实现我们需要的功能。

#引入urllib库

importurllib

defgetHtml(url):

page=urllib.urlopen(url)

html=page.read()

page.close()

returnhtml

这里返回的就是网页的源代码，也就是html代码。

那我们如何从中得到我们想要的信息呢?那就需要用到在网页分析里面最最常用的工具-正则表达式了。

2、根据正则表达式等获得需要的内容。

使用正则表达式时需要仔细观察该网页信息的结构，并写出正确的正则表达式。

python正则表达式的使用也很简洁：

#引入正则表达式库

importre

defgetWeather(html):

reg='(.*?).*?(.*?).*?(.*?)'

weatherList=re.compile(reg).findall(html)

returnweatherList

说明：

其中reg是正则表达式，html是第一步获得的文本。findall的作用是找到html中所有符合正则匹配的字符串并存放到weatherList中。之后再枚举weatheList中的数据输出即可。

这里的正则表达式reg有两个地方要注意。

一个是“(.*?)”。只要是()中的内容都是我们将要获得的内容，如果有多个括号，那么findall的每个结果就都包含这几个括号中的内容。上面有三个括号，分别对应城市、最低温和最高温。

另一个是“.*?”。python的正则匹配默认是贪婪的，即默认尽可能多地匹配字符串。如果在末尾加上问号，则表示非贪婪模式，即尽可能少地匹配字符串。在这里，由于有多个城市的信息需要匹配，所以需要使用非贪婪模式，否则匹配结果只剩下一个，且是不正确的。

以上内容为大家介绍了Python简单两步实现天气爬虫采集器，希望对大家有所帮助，如果想要了解更多Python相关知识，请关注 IT培训机构:千锋教育。https://www.mobiletrain.org/

声明：本站稿件版权均属千锋教育所有，未经许可不得擅自转载。

上一篇

提高python执行效率的方法

下一篇

在Python中添加自定义模块

猜你喜欢LIKE

python中xluntils库是什么?

python中ruamel.yaml模块是什么?

python sleep和wait对比分析

最新文章NEW

如何使用python中的help函数?

如何使用python的callable函数?

如何使用python中schedule模块?

相关推荐HOT

python gensim库是什么?

pythongensim库是什么?gensim库在文本监控里，首先在稳定上，坚如磐石，不用担心稳定性问题，其次，时效性很强，执行能力很快，经常在最重要的...详情>>

2023-11-06 21:48:19

python中getattr()是什么?

python中getattr()是什么?本文教程操作环境：windows7系统、Python3.9.1，DELLG3电脑。1、getattr()用来获取对象中的属性值;获取对象object的属...详情>>

2023-11-06 21:41:07

python标识符如何使用?

python标识符如何使用?为了给编程中函数、类等进行区分，会赋予它们不同的名称。我们把这种命名叫做标识符，也可以理解为符号的标记。当然这种...详情>>

2023-11-06 21:33:55

Python IDE之Thonny的介绍

pythonIDE之Thonny的介绍今天要介绍的IDE，可能没用过，甚至可能没听说过。叫Thonny，是塔尔图大学开发的，适合程序员新手。它的界面很容易使用...详情>>

2023-11-06 20:54:19

热门推荐

如何使用python中的help函数?

如何使用python的callable函数?

python gensim库是什么?

python中xluntils库是什么?

python中getattr()是什么?

python中的win32com库是什么?

python标识符如何使用?

如何使用python中schedule模块?

python中ruamel.yaml模块是什么?

defaultdict在python中计算键值的和

python sleep和wait对比分析

python中字符串转成数字的几种方法

python中SocketServer是什么?

python中如何使用@contextmanage?

行业资讯 更多>>

北京云计算培训学费

北京有哪些好的云计算培训机构

北京如何选择一家好的云计算培训...

北京参加云计算培训机构费用得多...

技术干货

抖音小店怎么看订单

抖音小店怎么看订单

抖音小店支付方式设置微信怎么设置

抖音小店支付方式设置微信怎么设置

抖音小店账户对公对私

抖音小店账户对公对私

抖音小店怎样设置客服在线时间

抖音小店怎样设置客服在线时间

抖音小店怎么制定客服绩效考核方案

抖音小店怎么制定客服绩效考核方案

抖音小店怎么打印标签信息图片

抖音小店怎么打印标签信息图片

抖音小店找达人多少钱一个月

抖音小店找达人多少钱一个月

技术问答 在线提问>>

张同学在线提问

unity切换场景音乐不变怎么实现

在Unity中切换场景并保持音乐不变需要创建一...详情

刘同学在线提问

Java归并排序有几种方法

除了递归归并排序，还有一种称为自底向上归并...详情

师资团队 更多>>

陆神

原去哪儿网高级架构师

北京大学计算机系毕业

HTML5学科教研总监

千锋威哥

OCP认证专家

15年以上开发经验

Java学科首席技术官

宋宋

原阿里后端架构师

北京邮电大学硕士

Python学科首席技术官

卢老师

北京大学博士后

北京科技大学博士

人工智能学科总监

索尔

原阿里后端架构师

浙工大计算机系毕业

Java学科高级讲师

jackfrued

曾任职华为成都研究所

计算机应用技术博士

Python学科教学主管

快速通道 更多>>

课程介绍
点击获取大纲
就业前景
查看就业薪资
学习费用
了解课程价格
优惠活动
领取优惠券
学习资源
领3000G教程
师资团队
了解师资团队
实战项目
获取项目源码
开班地区
查看来校路线

最新开班信息更多>>

网友热搜更多>>

IT行业年龄有限制吗女生学IT Java薪资待遇零基础Web培训 Python就业如何学UI设计大数据学习路线 java培训学费软件测试培训转行学Linux 网络安全基础知识网络营销培训 unity培训 30岁还能学it吗大数据技术学什么 python培训费