Python如何写出最简单的网页爬虫-快上网网站建设公司

Python如何写出最简单的网页爬虫

Python如何写出最简单的网页爬虫，针对这个问题，这篇文章详细介绍了相对应的分析和解答，希望可以帮助更多想解决这个问题的小伙伴找到更简单易行的方法。

昆山ssl适用于网站、小程序/APP、API接口等需要进行数据传输应用场景，ssl证书未来市场广阔！成为创新互联公司的ssl证书销售渠道，可以享受市场价格4-6折优惠！如果有意向欢迎电话联系或者加微信：18982081108（备注：SSL证书合作）期待与您的合作！

最近对python爬虫有了强烈地兴趣，在此分享自己的学习路径。

1.开发工具

笔者使用的工具是sublime text3，它的短小精悍(可能男人们都不喜欢这个词)使我十分着迷。推荐大家使用，当然如果你的电脑配置不错，pycharm可能更加适合你。

sublime text3搭建python开发环境推荐查看此博客：

[sublime搭建python开发环境][http://www.cnblogs.com/codefish/p/4806849.html]

2.爬虫介绍

爬虫顾名思义，就是像虫子一样，爬在Internet这张大网上。如此，我们便可以获取自己想要的东西。

既然要爬在Internet上，那么我们就需要了解URL，法号“统一资源定位器”，小名“链接”。其结构主要由三部分组成：

(1)协议：如我们在网址中常见的HTTP协议。

(2)域名或者IP地址：域名，如：www.baidu.com，IP地址，即将域名解析后对应的IP。

(3)路径：即目录或者文件等。

3.urllib开发最简单的爬虫

(1)urllib简介

Module	Introduce
urllib.error	Exception classes raised by urllib.request.
urllib.parse	Parse URLs into or assemble them from components.
urllib.request	Extensible library for opening URLs.
urllib.response	Response classes used by urllib.
urllib.robotparser	Load a robots.txt file and answer questions about fetchability of other URLs.

(2)开发最简单的爬虫

百度首页简洁大方，很适合我们爬虫。

爬虫代码如下：

from urllib import request  def visit_baidu():     URL = "http://www.baidu.com"     # open the URL     req = request.urlopen(URL)     # read the URL      html = req.read()     # decode the URL to utf-8     html = html.decode("utf_8")     print(html)  if __name__ == '__main__':     visit_baidu()

结果如下图：

Python如何写出最简单的网页爬虫

我们可以通过在百度首页空白处右击，查看审查元素来和我们的运行结果对比。

当然，request也可以生成一个request对象，这个对象可以用urlopen方法打开。

代码如下：

from urllib import request  def vists_baidu():     # create a request obkect     req = request.Request('http://www.baidu.com')     # open the request object     response = request.urlopen(req)     # read the response      html = response.read()     html = html.decode('utf-8')     print(html)  if __name__ == '__main__':     vists_baidu()

运行结果和刚才相同。

(3)错误处理

错误处理通过urllib模块来处理，主要有URLError和HTTPError错误，其中HTTPError错误是URLError错误的子类，即HTTRPError也可以通过URLError捕获。

HTTPError可以通过其code属性来捕获。

处理HTTPError的代码如下：

from urllib import request from urllib import error  def Err():     url = "https://segmentfault.com/zzz"     req = request.Request(url)      try:         response = request.urlopen(req)         html = response.read().decode("utf-8")         print(html)     except error.HTTPError as e:         print(e.code) if __name__ == '__main__':     Err()

运行结果如图：

Python如何写出最简单的网页爬虫

404为打印出的错误代码，关于此详细信息大家可以自行百度。

URLError可以通过其reason属性来捕获。

chuliHTTPError的代码如下：

from urllib import request from urllib import error  def Err():     url = "https://segmentf.com/"     req = request.Request(url)      try:         response = request.urlopen(req)         html = response.read().decode("utf-8")         print(html)     except error.URLError as e:         print(e.reason) if __name__ == '__main__':     Err()

运行结果如图：

Python如何写出最简单的网页爬虫

既然为了处理错误，那么***两个错误都写入代码中，毕竟越细致越清晰。须注意的是，HTTPError是URLError的子类，所以一定要将HTTPError放在URLError的前面，否则都会输出URLError的，如将404输出为Not Found。

代码如下：

from urllib import request from urllib import error  # ***种方法，URLErroe和HTTPError def Err():     url = "https://segmentfault.com/zzz"     req = request.Request(url)      try:         response = request.urlopen(req)         html = response.read().decode("utf-8")         print(html)     except error.HTTPError as e:         print(e.code)     except error.URLError as e:         print(e.reason)

大家可以更改url来查看各种错误的输出形式。

关于Python如何写出最简单的网页爬虫问题的解答就分享到这里了，希望以上内容可以对大家有一定的帮助，如果你还有很多疑惑没有解开，可以关注创新互联行业资讯频道了解更多相关知识。

本文名称：Python如何写出最简单的网页爬虫
地址分享：http://www.cdkjz.cn/article/gedgcp.html

多年建站经验

多一份参考，总有益处

联系快上网，免费获得专属《策划方案》及报价

咨询相关问题或预约面谈，可以通过以下方式与我们联系

网站建设

网站推广

案例

方案

电商网站开发

微信小程序

我们

联系

精准传达 • 有效沟通

查看其它板块

Python如何写出最简单的网页爬虫

多一份参考，总有益处

联系快上网，免费获得专属《策划方案》及报价

大客户专线成都：13518219792 座机：028-86922220

友情链接交换友情链接

网络推广

Network promotion

网站方案

Solution

电商网站开发

E-commerce & System

我们

About Us

联系

Contact Us

精准传达 • 有效沟通

查看其它板块

Python如何写出最简单的网页爬虫

相关资讯

腾讯云服务器_帽子云IDC 帽子云排名

php接收跨域请求数据库 php跨域获取cookie

包含sap系统Tel 号码的词条

linux命令解码空格 linux 空密码

阿里云邮箱接收服务器设置 阿里云邮箱接收服务器设置在哪

Linux命令网卡 linux网卡打开命令

腾讯云服务器后台 腾讯云服务器在哪里管理

腾讯云服务器修改用户名 腾讯云服务器怎么改ip

多一份参考，总有益处

联系快上网，免费获得专属《策划方案》及报价

大客户专线 成都：13518219792 座机：028-86922220

友情链接 交换友情链接

阿里云邮箱接收服务器设置阿里云邮箱接收服务器设置在哪

腾讯云服务器后台腾讯云服务器在哪里管理

腾讯云服务器修改用户名腾讯云服务器怎么改ip

大客户专线成都：13518219792 座机：028-86922220

友情链接交换友情链接