首页后端开发Python非常好用的爬虫语言Go

非常好用的爬虫语言Go

时间2023-04-19 11:45:01发布访客分类Python浏览834
导读:我想很多人一开始写爬虫的时候都会选择python+request,其他还有很多其他语言可以选择,比如今天我们要讲的Go语言,接下来让我们来感受一下如何使用 Go 写爬虫。首先介绍下框架,golly是 Gopher 们的非常快速且优雅的爬虫框...

我想很多人一开始写爬虫的时候都会选择python+request,其他还有很多其他语言可以选择,比如今天我们要讲的Go语言,接下来让我们来感受一下如何使用 Go 写爬虫。

首先介绍下框架,golly是 Gopher 们的非常快速且优雅的爬虫框架,提供了一个干净的界面来编写任何种类的爬虫。可以轻松地从网站中提取结构化数据,这些数据可用于各种应用程序,例如数据挖掘,数据处理或归档。他有很多的优点,比如简洁的 API、快速(单核可以达到每秒 1k 个请求)、管理请求延迟和每个域名的最大并发、自动 cookie 和会话处理、同步/异步/并行 抓取等。

接下来就是使用go进行爬虫实际,这里我选择的是爬取豆瓣,为什么很多人都喜欢用豆瓣作实践对象呢?因为它实在是太适合做爬虫入门练习了。几乎没有任何反爬限制,最简单的反爬限制就是IP的访问,这个是反爬措施里面最简单的,只需要添加上优质爬虫代理IP的就能解决,代理IP网上有很多的代理商提供,像亿牛云的隧道转发质量就很可,数据爬取完整代码示例如下:

 package main

        import (
            "net/url"
            "net/http"
            "bytes"
            "fmt"
            "io/ioutil"
        )

        // 代理服务器(产品官网 www.16yun.cn)
        const ProxyServer = "t.16yun.cn:31111"

        type ProxyAuth struct {

            Username string
            Password string
        }


        func (p ProxyAuth) ProxyClient() http.Client {
    

            var proxyURL *url.URL
            if p.Username != ""&
    &
 p.Password!="" {

                proxyURL, _ = url.Parse("http://" + p.Username + ":" + p.Password + "@" + ProxyServer)
            }
else{

                proxyURL, _ = url.Parse("http://" + ProxyServer)
            }

            return http.Client{
    Transport: &
http.Transport{
Proxy:http.ProxyURL(proxyURL)}
}

        }


        func main()  {



            targetURI := "https://httpbin.org/ip"


            // 初始化 proxy http client
            client := ProxyAuth{
"username",  "password"}
.ProxyClient()

            request, _ := http.NewRequest("GET", targetURI, bytes.NewBuffer([] byte(``)))

            // 设置Proxy-Tunnel
            // rand.Seed(time.Now().UnixNano())
            // tunnel := rand.Intn(10000)
            // request.Header.Set("Proxy-Tunnel", strconv.Itoa(tunnel) )

            response, err := client.Do(request)

            if err != nil {

                panic("failed to connect: " + err.Error())
            }
 else {

                bodyByte, err := ioutil.ReadAll(response.Body)
                if err != nil {

                    fmt.Println("读取 Body 时出错", err)
                    return
                }

                response.Body.Close()

                body := string(bodyByte)

                fmt.Println("Response Status:", response.Status)
                fmt.Println("Response Header:", response.Header)
                fmt.Println("Response Body:\n", body)
            }
    

声明:本文内容由网友自发贡献,本站不承担相应法律责任。对本内容有异议或投诉,请联系2913721942#qq.com核实处理,我们将尽快回复您,谢谢合作!

网络爬虫gopython

若转载请注明出处: 非常好用的爬虫语言Go
本文地址: https://pptw.com/jishu/3839.html
MYSQL命令远程连接SQLITE3 (给sqlite3加个网络连接功能) [oeasy]python0132_[专业选修]utf-8_unicode_transformation_format_8_编码方式

游客 回复需填写必要信息