首页后端开发JAVAjava爬虫利器Jsoup的使用(java 爬虫)

java爬虫利器Jsoup的使用(java 爬虫)

时间2023-03-24 17:23:11发布访客分类JAVA浏览1452
导读:java中支持的爬虫框架有很多,比如WebMagic、Spider、Jsoup等。今天我们使用Jsoup来实现一个简单的爬虫程序,Jsoup 是一款Java 的HTML解析器,可直接解析某个URL地址、HTML文本内容。它提供了一套非常省力...

java中支持的爬虫框架有很多,比如WebMagic、Spider、Jsoup等。今天我们使用Jsoup来实现一个简单的爬虫程序,Jsoup 是一款Java 的HTML解析器,可直接解析某个URL地址、HTML文本内容。它提供了一套非常省力的API,可通过DOM,CSS以及类似于jQuery的操作方法来取出和操作数据。我们可以使用Jsoup快速地掌握爬取页面数据的技巧。

Jsoup如此强大的关键在于Jsoup对常用的api做了很好的封装,并且通俗易懂,小白上手也很快,下面就主要介绍下常用的对象及API,

网络请求,jsoup封装了http请求所涉及的几乎所有api,在Jsoup.connect()方法返回的对象Connection对象中,封装了http请求的常见操作。

比如cookie

Connection cookie(String k, String v);
    

Connection cookies(MapString, String>
     cookieMap);
    

代理请求

Connection proxy(Proxy var1);
    

Connection proxy(String var1, int var2);
    

本次分享将实现的功能为:利用Jsoup爬取某个搜索词语的百度百科的介绍部分,之前的很多爬虫文章都是分享的使用Python进行爬取,所以这次我们将用Java来做爬虫。经过简单的分析发现百度百科还是有些反爬机制的,所以这里我们也可以分享下如何在爬虫程序里面添加代理IP进行数据爬取的过程。代码实现过程如下:

import java.io.IOException;
    
import java.net.Authenticator;
    
import java.net.InetSocketAddress;
    
import java.net.PasswordAuthentication;
    
import java.net.Proxy;
    

import org.jsoup.Jsoup;
    
import org.jsoup.nodes.Document;



public class Demo
{
    
    // 代理验证信息
    final static String ProxyUser = "16WBSPUA";
    
    final static String ProxyPass = "524536";
    

    // 代理服务器(产品官网 www.16yun.cn)
    final static String ProxyHost = "t.16yun.cn";
    
    final static Integer ProxyPort = 31111;
    

    // 设置IP切换头
    final static String ProxyHeadKey = "Proxy-Tunnel";



    public static String getUrlProxyContent(String url)
    {

        Authenticator.setDefault(new Authenticator() {

            public PasswordAuthentication getPasswordAuthentication()
            {
    
                return new PasswordAuthentication(ProxyUser, ProxyPass.toCharArray());

            }

        }
    );
    
        // 设置Proxy-Tunnel
        Random random = new Random();
    
        int tunnel = random.nextInt(10000);
    
        String ProxyHeadVal = String.valueOf(tunnel);
    

        Proxy proxy = new Proxy(Proxy.Type.HTTP, new InetSocketAddress(ProxyHost, ProxyPort));


        try
        {
    
            // 处理异常、其他参数
            Document doc = Jsoup.connect(url).timeout(3000).header(ProxyHeadKey, ProxyHeadVal).proxy(proxy).get();


            if(doc != null) {
    
                System.out.println(doc.body().html());

            }

        }

        catch (IOException e)
        {
    
            e.printStackTrace();

        }
    

        return null;

    }


    public static void main(String[] args) throws Exception
    {
    
        // 要访问的目标页面
        String targetUrl = "https://baike.baidu.com/";
    


        getUrlProxyContent(targetUrl);

    }

}
    

声明:本文内容由网友自发贡献,本站不承担相应法律责任。对本内容有异议或投诉,请联系2913721942#qq.com核实处理,我们将尽快回复您,谢谢合作!

java爬虫jsoup对象数据

若转载请注明出处: java爬虫利器Jsoup的使用(java 爬虫)
本文地址: https://pptw.com/jishu/135.html
Java 修饰符和运算符 Laravel 事件

游客 回复需填写必要信息