Python爬虫教程

Python URLError

Python URLError详细教程

URLError

URLError是urllib库的error模块,属性reason表示错误原因,URLError产生可能的原因如下:
网络无连接,即本机无法上网 连接不到特定的服务器 服务器不存在
在代码中,我们需要用try-except语句来包围并捕获相应的异常。
# Filename : example.py
# Copyright : 2020 By Lidihuo
# Author by : www.lidihuo.com
# Date : 2020-08-20
from urllib import request,error
import ssl
# 导入ssl时关闭证书验证
ssl._create_default_https_context = ssl._create_unverified_context
try:
    response = request.urlopen('https://www.lidihuo.com/python/spider-xxx.html')
except error.URLError as e:
    print(e.reason)
上述url https://www.lidihuo.com/python/spider-xxx.html不存在,会报以下错误。
The HTTP server returned a redirect error that would lead to an infinite loop.
The last 30x error message was:
报了一个30x的错误,重定向到临时的URL被丢弃,介绍一种比较合理的异常的写法因为HTTPError是URLError的子类,先检查是不是HTTPError,如果不是再检查是不是URLError,如果都不是,说明请求成功。
# Filename : example.py
# Copyright : 2020 By Lidihuo
# Author by : www.lidihuo.com
# Date : 2020-08-20
from urllib import request,error
import ssl
# 导入ssl时关闭证书验证
ssl._create_default_https_context = ssl._create_unverified_context
try:
    response = request.urlopen('https://www.lidihuo.com/python/spider-xxx.html')
except error.HTTPError as e:
    print(e.code,'\n',e.reason,'\n',e.headers)
except error.URLError as e:
    print(e.reason)
else:
    print('Request successfully')
运行结果如下:
# Filename : example.py
# Copyright : 2020 By Lidihuo
# Author by : www.lidihuo.com
# Date : 2020-08-20
302
 The HTTP server returned a redirect error that would lead to an infinite loop.
The last 30x error message was:
 
 Server: nginx/1.17.10
Date: Thu, 20 Aug 2020 08:11:16 GMT
Content-Length: 0
Location: https://www.lidihuo.com/404
Connection: close
Content-Language: zh-CN

HTTPError

HTTPError是URLError的子类,在你利用urlopen方法发出一个请求时,服务器上都会对应一个应答对象response,其中它包含一个数字”状态码”,urlopen会产生一个HTTPError,对应相应的状态吗,HTTP状态码表示HTTP协议所返回的响应的状态。下面将状态码归结如下:
100: 客户端应当继续发送请求。 101: Switching Protocols,服务器已经理解了客户端的请求,并将通过Upgrade 消息头通知客户端采用不同的协议来完成这个请求。 102: Processing,这一类型的状态码,代表请求已成功被服务器接收、理解、并接受 。 200: OK,请求已成功,请求所希望的响应头或数据体将随此响应返回。出现此状态码是表示正常状态。 201: Created,请求已经被实现,而且有一个新的资源已经依据请求的需要而建立,且其 URI 已经随Location 头信息返回。 202: Accepted,服务器已接受请求,但尚未处理。 203: 返回的实体头部元信息不是在原始服务器上有效的确定集合,而是来自本地或者第三方的拷贝。 204: No Content,服务器成功处理了请求,但不需要返回任何实体内容,并且希望返回更新了的元信息。 205: Reset Content,服务器成功处理了请求,且没有返回任何内容。 206: Partial Content,服务器已经成功处理了部分 GET 请求。 207: Multi-Status,代表之后的消息体将是一个XML消息。 300: Multiple Choices,被请求的资源有一系列可供选择的回馈信息,每个都有自己特定的地址和浏览器驱动的商议信息。 301: Moved Permanently,被请求的资源已永久移动到新位置,并且将来任何对此资源的引用都应该使用本响应返回的若干个 URI 之一。 302: Move temporarily,请求的资源临时从不同的 URI响应请求。由于这样的重定向是临时的,客户端应当继续向原有地址发送以后的请求。 303: See Other,对应当前请求的响应可以在另一个 URI 上被找到,而且客户端应当采用 GET 的方式访问那个资源。 304: Not Modified,如果客户端发送了一个带条件的 GET 请求且该请求已被允许,而文档的内容并没有改变,则服务器应当返回这个状态码。 305: Use Proxy,被请求的资源必须通过指定的代理才能被访问。 306: Switch Proxy,在最新版的规范中,306状态码已经不再被使用。 307: Temporary Redirect,请求的资源临时从不同的URI 响应请求。 400: Bad Request,语义有误,当前请求无法被服务器理解。 401: Unauthorized,当前请求需要用户验证。 402: Payment Required,该状态码是为了将来可能的需求而预留的。 403: Forbidden,服务器已经理解请求,但是拒绝执行它。与401响应不同的是,身份验证并不能提供任何帮助,而且这个请求也不应该被重复提交。 404: Not Found,请求失败,请求所希望得到的资源未被在服务器上发现。 405: Method Not Allowed,请求行中指定的请求方法不能被用于请求相应的资源。 406: Not Acceptable,请求的资源的内容特性无法满足请求头中的条件,因而无法生成响应实体。 407: Proxy Authentication Required,与401响应类似,只不过客户端必须在代理服务器上进行身份验证。 408: Request Timeout,请求超时。 409: Conflict,由于和被请求的资源的当前状态之间存在冲突,请求无法完成。 410: Gone,被请求的资源在服务器上已经不再可用,而且没有任何已知的转发地址。这样的状况应当被认为是永久性的。 411: Length Required,服务器拒绝在没有定义 Content-Length 头的情况下接受请求。 412: Precondition Failed,服务器在验证在请求的头字段中给出先决条件时,没能满足其中的一个或多个。 413: Request Entity Too Large,服务器拒绝处理当前请求,因为该请求提交的实体数据大小超过了服务器愿意或者能够处理的范围。 414: Request-URI Too Long,请求的URI 长度超过了服务器能够解释的长度,因此服务器拒绝对该请求提供服务。 415: Unsupported Media Type,对于当前请求的方法和所请求的资源,请求中提交的实体并不是服务器中所支持的格式,因此请求被拒绝。 416: 如果请求中包含了 Range 请求头,同时请求中又没有定义 If-Range 请求头,那么服务器就应当返回416状态码。 417: Expectation Failed,在请求头 Expect 中指定的预期内容无法被服务器满足,Expect 的内容无法被满足。 421: 从当前客户端所在的IP地址到服务器的连接数超过了服务器许可的最大范围。 422: Unprocessable Entity,请求格式正确,但是由于含有语义错误,无法响应。 423: Locked,当前资源被锁定。(RFC 4918 WebDAV) 424: Failed Dependency,由于之前的某个请求发生的错误,导致当前请求失败,例如 PROPPATCH。 425: Unordered Collection,在WebDav Advanced Collections 草案中定义,但是未出现在《WebDAV 顺序集协议》(RFC 3658)中。 426: Upgrade Required,客户端应当切换到TLS/1.0。 449: Retry With,由微软扩展,代表请求应当在执行完适当的操作后进行重试。 451: Unavailable For Legal Reasons,该请求因法律原因不可用。 500: Internal Server Error,服务器遇到了一个未曾预料的状况,导致了它无法完成对请求的处理。 501: Not Implemented,服务器不支持当前请求所需要的某个功能。当服务器无法识别请求的方法,并且无法支持其对任何资源的请求。 502: Bad Gateway,作为网关或者代理工作的服务器尝试执行请求时,从上游服务器接收到无效的响应。 503: Service Unavailable,由于临时的服务器维护或者过载,服务器当前无法处理请求。 504: Gateway Timeout,作为网关或者代理工作的服务器尝试执行请求时,未能及时从上游服务器收到响应。 505: HTTP Version Not Supported,服务器不支持,或者拒绝支持在请求中使用的 HTTP 版本。 506: Variant Also Negotiates,由《透明内容协商协议》(RFC 2295)扩展,代表服务器存在内部配置错误。 507: Insufficient Storage,服务器无法存储完成请求所必须的内容。这个状况被认为是临时的。 509: Bandwidth Limit Exceeded,服务器达到带宽限制。这不是一个官方的状态码,但是仍被广泛使用。 510: Not Extended,获取资源所需要的策略并没有被满足。(RFC 2774)。 600: Unparseable Response Headers,源站没有返回响应头部,只返回实体内容。
昵称: 邮箱:
Copyright © 2022 立地货 All Rights Reserved.
备案号:京ICP备14037608号-4