# 2.4. requests模块的其他方法

# 目标

  • 掌握requests模块获取cookie的方法
  • 掌握requests模块ssl证书错误的处理方法
  • 掌握超时参数的使用
  • 掌握retrying模块的使用

# 1. requests模块获取cookie

requests.utils.dict_from_cookiejar:把cookiejar对象转化为字典

import requests

url = "http://www.baidu.com"
response = requests.get(url)
print(type(response.cookies))

cookies = requests.utils.dict_from_cookiejar(response.cookies)
print(cookies)
1
2
3
4
5
6
7
8

输出为:

<class 'requests.cookies.RequestsCookieJar'>
{'BDORZ': '27315'}
1
2

在前面的requests的session类中,我们不需要处理cookie的任何细节,如果有需要,我们可以使用上述方法来解决

# 2. requests处理证书错误

经常我们在网上冲浪时,经常能够看到下面的提示:

xcooo

出现这个问题的原因是:ssl的证书不安全导致

那么如果在代码中请求会怎么样呢?

import requests

url = "https://www.12306.cn/mormhweb/"
response = requests.get(url)
1
2
3
4

返回

ssl.CertificateError ...
1

为了在代码中能够正常的请求,我们修改添加一个参数

import requests

url = "https://www.12306.cn/mormhweb/"
response = requests.get(url,verify=False)
1
2
3
4

# 3. 超时参数的使用

在平时网上冲浪的过程中,我们经常会遇到网络波动,这个时候,一个请求等了很久可能任然没有结果

对应的,在爬虫中,一个请求很久没有结果,就会让整个项目的效率变得非常低,这个时候我们就需要对请求进行强制要求,让他必须在特定的时间内返回结果,否则就报错

使用方法如下:

response = requests.get(url,timeout=3)

通过添加timeout参数,能够保证在3秒钟内返回响应,否则会报错

这个方法还能够拿来检测代理ip的质量,如果一个代理ip在很长时间没有响应,那么添加超时之后也会报错,对应的这个ip就可以从代理ip池中删除

# 4. retrying模块的使用

上述方法能够加快我们整体的请求速度,但是在正常的网页浏览过成功,如果发生速度很慢的情况,我们会做的选择是刷新页面,那么在代码中,我们是否也可以刷新请求呢?

对应的,retrying模块就可以帮助我们解决

  • retrying模块的地址:https://pypi.org/project/retrying/ (opens new window)
  • retrying 模块的使用
    • 使用retrying模块提供的retry模块
    • 通过装饰器的方式使用,让被装饰的函数反复执行
    • retry中可以传入参数stop_max_attempt_number,让函数报错后继续重新执行,达到最大执行次数的上限,如果每次都报错,整个函数报错,如果中间有一个成功,程序继续往后执行

所以我们可以结合前面的知识点和retrying模块,把我们需要反复使用的请求方法做一个简单的封装,在后续任何其他地方需要使用的时候,调用该方法就行

代码参考

# parse.py
import requests
from retrying import retry

headers = {}


@retry(stop_max_attempt_number=3) #最大重试3次,3次全部报错,才会报错
def _parse_url(url)
    response = requests.get(url, headers=headers, timeout=3) #超时的时候回报错并重试
    assert response.status_code == 200 #状态码不是200,也会报错并充实
    return response


def parse_url(url)
    try: #进行异常捕获
        response = _parse_url(url)
    except Exception as e:
        print(e)
        response = None
    return response
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21

# 小结

  • 本小结重点
    • 掌握requests模块获取cookie的方法
    • 掌握requests模块ssl证书错误的处理方法
    • 掌握超时参数的使用
    • 掌握retrying模块的使用
上次更新: 2020/10/12 下午7:13:44