网站首页  汉语字词  英语词汇  考试资料  写作素材  旧版资料

请输入您要查询的考试资料:

 

标题 python中使用urllib2伪造http报头的2个方法
内容
    这篇文章主要介绍了python中使用urllib2伪造http报头的2个方法,即伪造http头信息,需要的朋友可以参考下
    在采集网页信息的时候,经常需要伪造报头来实现采集脚本的有效执行
    下面,我们将使用urllib2的header部分伪造报头来实现采集信息
    方法1、
    #!/usr/bin/python
    # -*- coding: utf-8 -*-
    #encoding=utf-8
    #filename:urllib2-header.py
    import urllib2
    import sys
    #抓取网页内容-发送报头-1
    url= http://www.xxx.net
    send_headers = {
     'host':'www.xxx.net',
     'user-agent':'mozilla/5.0 (windows nt 6.2; rv:16.0) gecko/20100101 firefox/16.0',
     'accept':'text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8',
     'connection':'keep-alive'
    }
    req = urllib2.request(url,headers=send_headers)
    r = urllib2.urlopen(req)
    html = r.read()        #返回网页内容
    receive_header = r.info()     #返回的报头信息
    # sys.getfilesystemencoding()
    html = html.decode('utf-8','replace').encode(sys.getfilesystemencoding()) #转码:避免输出出现乱码
    print receive_header
    # print '####################################'
    print html
    方法2、
    #!/usr/bin/python
    # -*- coding: utf-8 -*-
    #encoding=utf-8
    #filename:urllib2-header.py
    import urllib2
    import sys
    url = 'http://www.xxx.net'
    req = urllib2.request(url)
    req.add_header('referer','http://www.xxx.net/')
    req.add_header('user-agent','mozilla/5.0 (windows nt 6.2; rv:16.0) gecko/20100101 firefox/16.0')
    r = urllib2.urlopen(req)
    html = r.read()
    receive_header = r.info()
    html = html.decode('utf-8').encode(sys.getfilesystemencoding())
    print receive_header
    print '#####################################'
    print html
随便看

 

在线学习网考试资料包含高考、自考、专升本考试、人事考试、公务员考试、大学生村官考试、特岗教师招聘考试、事业单位招聘考试、企业人才招聘、银行招聘、教师招聘、农村信用社招聘、各类资格证书考试等各类考试资料。

 

Copyright © 2002-2024 cuapp.net All Rights Reserved
更新时间:2025/5/13 7:49:28