Python爬虫编程思想（9）：用urllib处理请求超时

蒙娜丽宁 2021-07-17 08:22:41 22

版权

当向服务端发送HTTP请求时，通常很快就会得到响应，但由于某些原因，服务端可能迟迟没有响应（很大程度上是服务端吞吐量不够，你的请求正在排队），这样HTTP链接就会一直等待，知道超过预设的等待时间，这个等待时间就是请求超时。通常请求超时都比较大，这样以来，如果服务端半天没有响应，那么客户端就会一直在那等待。这对于爬虫来说是非常不妥的。因为爬虫通常会启动一个或多个线程抓取Web资源。如果这时有一个线程由于服务端没有响应而一直在那里等待，那么就相当于浪费了一个人力。所以需要将这个请求超时设置的比较小，即使服务端没有响应，客户端也不必长时间等待。在过了请求超时后，客户端就会抛出异常，然后可以根据业务需求做进一步的处理，例如，将这个URL进行标记，以后不再抓取，或重新抓取这个URL对应的Web资源。

请求超时需要通过urlopen函数的timeout命名参数进行设置，单位为秒。

下面看一个例子：

由于绝大多数网站不太可能在0.1秒内响应客户端的请求，所以上面的代码基本上可以肯定会抛出超时异常（timeout exception）。

运行结果如图1所示。

Python爬虫编程思想（9）：用urllib处理请求超时

Python爬虫编程思想（9）：用urllib处理请求超时

Recommend

Get Certified: C_TADM_21 | SAP Certified Technology Associate – SAP S/4HANA Syst...

Query where multiple elements of the same name exist List

Run a pot from another pot

踩坑React + Node.js/Express + Google Cloud Build + Docker前后端分离应用部署

How IT Leaders Can Adopt an Automation Mindset

IntelliJ IDEA 2017.1 does not stop at breakpoints

Sydney ramps up lockdown: 'non-critical' retail shuts, construction stopped, off...

GitHub - FASTSHIFT/X-TRACK: A GPS bicycle speedometer that supports offline maps...

Feature Friday Episode 56 - Sovereign Cloud, Gaia-X and Greenplum

Creating a Peer to Peer photo sharing on Android

About Joyk