在爬取数据是时候很多搜索的词语中在浏览器上显示的是中文,但是我们复制url到本地,中文就会出现我们看不懂的文字。
如果我们需要爬虫的时候也是一样,我们需要给浏览器传过去的也是对url中的中文进行转码之后的url地址,否则在url中的关键字直接出现中文会有问题。在python3的环境中的urllib库中 quote模块
提供了这一功能
一、URL转码
#!/usr/bin/env python
#-*- coding:utf-8 -*-
from urllib.parse import quote
name = '诗人李白'
url_encode_name = quote(name)
print(url_encode_name)
# 输出:
# %E8%AF%97%E4%BA%BA%E6%9D%8E%E7%99%BD
二、URL解码
#!/usr/bin/env python
#-*- coding:utf-8 -*-
from urllib.parse import unquote
name = '%E8%AF%97%E4%BA%BA%E6%9D%8E%E7%99%BD'
url_decode_name = unquote(name)
print(url_decode_name)
# 输出:
# 诗人李白
三、使用urlencode对url转码
#!/usr/bin/env python
#-*- coding:utf-8 -*-
from urllib.parse import urlencode
start_url='http://tieba.baidu.com/f?'
urldata = {
'kw':'诗人李白',
'ie':'utf-8',
'pn':'100',
}
print(start_url+urlencode(urldata))
# 输出:
# http://tieba.baidu.com/f?kw=%E8%AF%97%E4%BA%BA%E6%9D%8E%E7%99%BD&ie=utf-8&pn=100
声明:本站所有文章,如无特殊说明或标注,均为本站原创发布。任何个人或组织,在未征得本站同意时,禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若本站内容侵犯了原著者的合法权益,可联系我们进行处理。