【经验总结】Python3 Requests 模块请求内容包含中文报错的解决办法


0x00 前言

最近在写一个爬虫代码,里面需要使用 get 传参中文,但是如果直接使用中文而不对其编码的话,程序将会报错。

UnicodeEncodeError: 'latin-1' codec can't encode characters in position 38-39: ordinal not in range(256)

0x01 网上的一些解决办法

参考网上的解决办法,比如下面的几种办法。

1、在中文后加上".encode('GBK')"
2、在文件头部加上"#coding = utf-8"
3、在中文后加上".encode('utf-8')"

这几种方法在我这里都行不通,抓包也可以看到数据包里的中文并不是我们想象的经过 URL 编码的字符。

GET /test=b'%5Cxe6%5Cxb5%5Cx8b%5Cxe8%5Cxaf%5Cx95' HTTP/1.1

0x02 可行的办法

最后才意识到,其实并不需要对中文进行 GBK、UTF-8 转码,而应该对其进行 URL 编码。

from urllib.parse import quote
text = quote("测试", 'utf-8')

利用 quote 函数对 “测试” 进行 URL 编码后,再次抓包可以看到中文部分已经是 URL 格式了。

GET /test=%E6%B5%8B%E8%AF%95 HTTP/1.1

此时,程序也不再报错,可以顺利执行了。

更多信息欢迎关注我的个人微信公众号:TeamsSix
本文原文地址:https://www.teamssix.com/year/200206-202951.html
参考文章:https://blog.csdn.net/qq_33876553/article/details/79730246


文章作者: Teams Six
版权声明: 本博客所有文章除特別声明外,均采用 CC BY 4.0 许可协议。转载请注明来源 Teams Six !
评论
 上一篇
【摘要】漏洞组合拳之XSS+CSRF记录 【摘要】漏洞组合拳之XSS+CSRF记录
前几天,我在FreeBuf发布了一篇文章《漏洞组合拳之XSS+CSRF记录》,因为版权原因,无法在​这里发布。 文章里介绍了两种常见的组合拳方法,感兴趣的可以点击下方链接进行查看。 文章链接:https://www.freebuf.com/
2020-02-06
下一篇 
【经验总结】SQL注入Bypass安全狗360主机卫士 【经验总结】SQL注入Bypass安全狗360主机卫士
0x00 前言这类的文章已经是比较多了,本文也主要是作为学习笔记来记录,主要是记录一下我在学习 SQL 注入 Bypass 的过程,同时前人的不少绕过方法已经失效了,所以这里也是记录一下最新规则的一些绕过方法。 0x01 环境搭建测试环境:
2020-01-05
  目录