首页后端开发PythonPython爬取新浪微博数据快速版(用python爬取微博数据)

Python爬取新浪微博数据快速版(用python爬取微博数据)

时间2023-03-29 14:05:44发布访客分类Python浏览1650
导读:新浪微博的数据可是非常有价值的,你可以拿来数据分析、拿来做网站、甚至是*。不过很多人由于技术限制,想要使用的时候只能使用复制粘贴这样的笨方法。没关系,现在就教大家如何批量爬取微博的数据,大大加快数据迁移速度!1、需要先获取cookie,2、...

新浪微博的数据可是非常有价值的,你可以拿来数据分析、拿来做网站、甚至是*。不过很多人由于技术限制,想要使用的时候只能使用复制粘贴这样的笨方法。没关系,现在就教大家如何批量爬取微博的数据,大大加快数据迁移速度!

1、需要先获取cookie,

2、运行爬虫

运行爬虫之前先简单的进行分析,微博这样的网站反爬机制都比较严的,最近的风控更严,特别是对IP的需求更高,所以在爬取数据之前需要加上代理池。爬虫代理的使用之前分享过很多,这里就简单的说下,根据自己的程序设计选择使用api提取模式自己管理IP或者使用隧道转发直接进行数据爬取都可以。这里我们选择使用后者,隧道转发的更适合业务启动和上手也快。实现过程如下:

#! -*- encoding:utf-8 -*-

    import requests
    import random

    # 要访问的目标页面
    targetUrl = "weibo.com/?sudaref=www.baidu.com"

    # 要访问的目标HTTPS页面
    # targetUrl = "weibo.com/?sudaref=www.baidu.comp"

    # 代理服务器(产品官网 www.16yun.cn)
    proxyHost = "t.16yun.cn"
    proxyPort = "31111"

    # 代理验证信息
    proxyUser = "16LDJLCD"
    proxyPass = "254565"

    proxyMeta = "http://%(user)s:%(pass)s@%(host)s:%(port)s" % {

        "host" : proxyHost,
        "port" : proxyPort,
        "user" : proxyUser,
        "pass" : proxyPass,
    }


    # 设置 http和https访问都是用HTTP代理
    proxies = {

        "http"  : proxyMeta,
        "https" : proxyMeta,
    }



    #  设置IP切换头
    tunnel = random.randint(1,10000)
    headers = {
"Proxy-Tunnel": str(tunnel)}
    



    resp = requests.get(targetUrl, proxies=proxies, headers=headers)

    print resp.status_code
    print resp.text

声明:本文内容由网友自发贡献,本站不承担相应法律责任。对本内容有异议或投诉,请联系2913721942#qq.com核实处理,我们将尽快回复您,谢谢合作!

python网络爬虫大数据

若转载请注明出处: Python爬取新浪微博数据快速版(用python爬取微博数据)
本文地址: https://pptw.com/jishu/636.html
python实现bloom filter 腾讯云SCF云函数多环境配置(腾讯云函数 环境变量)

游客 回复需填写必要信息