java爬虫利器Jsoup的使用（java 爬虫）

时间2023-03-24 17:23:11发布访客分类JAVA浏览1563

导读：java中支持的爬虫框架有很多，比如WebMagic、Spider、Jsoup等。今天我们使用Jsoup来实现一个简单的爬虫程序，Jsoup 是一款Java 的HTML解析器，可直接解析某个URL地址、HTML文本内容。它提供了一套非常省力...

java中支持的爬虫框架有很多，比如WebMagic、Spider、Jsoup等。今天我们使用Jsoup来实现一个简单的爬虫程序，Jsoup 是一款Java 的HTML解析器，可直接解析某个URL地址、HTML文本内容。它提供了一套非常省力的API，可通过DOM，CSS以及类似于jQuery的操作方法来取出和操作数据。我们可以使用Jsoup快速地掌握爬取页面数据的技巧。

Jsoup如此强大的关键在于Jsoup对常用的api做了很好的封装，并且通俗易懂，小白上手也很快，下面就主要介绍下常用的对象及API，

网络请求，jsoup封装了http请求所涉及的几乎所有api，在Jsoup.connect()方法返回的对象Connection对象中，封装了http请求的常见操作。

比如cookie

Connection cookie(String k, String v);
    

Connection cookies(MapString, String>
     cookieMap);

代理请求

Connection proxy(Proxy var1);
    

Connection proxy(String var1, int var2);

本次分享将实现的功能为：利用Jsoup爬取某个搜索词语的百度百科的介绍部分，之前的很多爬虫文章都是分享的使用Python进行爬取，所以这次我们将用Java来做爬虫。经过简单的分析发现百度百科还是有些反爬机制的，所以这里我们也可以分享下如何在爬虫程序里面添加代理IP进行数据爬取的过程。代码实现过程如下：

import java.io.IOException;
    
import java.net.Authenticator;
    
import java.net.InetSocketAddress;
    
import java.net.PasswordAuthentication;
    
import java.net.Proxy;
    

import org.jsoup.Jsoup;
    
import org.jsoup.nodes.Document;



public class Demo
{
    
    // 代理验证信息
    final static String ProxyUser = "16WBSPUA";
    
    final static String ProxyPass = "524536";
    

    // 代理服务器(产品官网 www.16yun.cn)
    final static String ProxyHost = "t.16yun.cn";
    
    final static Integer ProxyPort = 31111;
    

    // 设置IP切换头
    final static String ProxyHeadKey = "Proxy-Tunnel";



    public static String getUrlProxyContent(String url)
    {

        Authenticator.setDefault(new Authenticator() {

            public PasswordAuthentication getPasswordAuthentication()
            {
    
                return new PasswordAuthentication(ProxyUser, ProxyPass.toCharArray());

            }

        }
    );
    
        // 设置Proxy-Tunnel
        Random random = new Random();
    
        int tunnel = random.nextInt(10000);
    
        String ProxyHeadVal = String.valueOf(tunnel);
    

        Proxy proxy = new Proxy(Proxy.Type.HTTP, new InetSocketAddress(ProxyHost, ProxyPort));


        try
        {
    
            // 处理异常、其他参数
            Document doc = Jsoup.connect(url).timeout(3000).header(ProxyHeadKey, ProxyHeadVal).proxy(proxy).get();


            if(doc != null) {
    
                System.out.println(doc.body().html());

            }

        }

        catch (IOException e)
        {
    
            e.printStackTrace();

        }
    

        return null;

    }


    public static void main(String[] args) throws Exception
    {
    
        // 要访问的目标页面
        String targetUrl = "https://baike.baidu.com/";
    


        getUrlProxyContent(targetUrl);

    }

}

声明：本文内容由网友自发贡献，本站不承担相应法律责任。对本内容有异议或投诉，请联系2913721942#qq.com核实处理，我们将尽快回复您，谢谢合作！

java 爬虫 jsoup 对象数据

若转载请注明出处： java爬虫利器Jsoup的使用（java 爬虫）
本文地址： https://pptw.com/jishu/135.html

Java 修饰符和运算符 Laravel 事件