首页前端开发JavaScript聊聊node中怎么借助第三方开源库实现网站爬取功能

聊聊node中怎么借助第三方开源库实现网站爬取功能

时间2024-01-31 02:17:02发布访客分类JavaScript浏览130
导读:收集整理的这篇文章主要介绍了聊聊node中怎么借助第三方开源库实现网站爬取功能,觉得挺不错的,现在分享给大家,也给大家做个参考。本篇文章给大家介绍一下node中借助第三方开源库轻松实现网站爬取功能的方法,希望对大家有所帮助!nodejs实现...
收集整理的这篇文章主要介绍了聊聊node中怎么借助第三方开源库实现网站爬取功能,觉得挺不错的,现在分享给大家,也给大家做个参考。本篇文章给大家介绍一下node中借助第三方开源库轻松实现网站爬取功能的方法,希望对大家有所帮助!

nodejs实现网站爬取功能

第三方库介绍

  • request 对网络请求的封装

  • cheerio node 版本的 jquery

  • mkdirp 创建多层的文件夹目录

实现思路

  • 通过request获取指定 url 内容

  • 通过cheerio找到页面中跳转的路径(去重)

  • 通过mkdirp创建目录

  • 通过fs创建文件,将读取的内容写入

  • 拿到没有访问的路径重复以上执行步骤

代码实现

const fs = require("fs");
    const path = require("path");
    const request = require("request");
    const cheerio = require("cheerio");
    const mkdirp = require("mkdirp");
    // 定义入口urlconst homeUrl = "https://www.baidu.COM";
    // 定义set存储已经访问过的路径,避免重复访问const set = new Set([homeUrl]);
function grab(url) {
      // 校验url规范性  if (!url) return;
      // 去空格  url = url.trim();
  // 自动补全url路径  if (url.endsWITh("/")) {
        url += "index.htML";
  }
      const chunks = [];
      // url可能存在一些符号或者中文,可以通过encodeURI编码  request(encodeURI(url))    .on("error", (e) =>
 {
          // 打印错误信息      console.LOG(e);
    }
    )    .on("data", (chunk) =>
 {
          // 接收响应内容      chunks.push(chunk);
    }
    )    .on("end", () =>
 {
          // 将相应内容转换成文本      const html = Buffer.concat(chunks).toString();
          // 没有获取到内容      if (!html) return;
      // 解析URL      let {
 host, origin, pathname }
     = new URL(url);
          pathname = decodeURI(pathname);
          // 通过cheerio解析html      const $ = cheerio.load(html);
          // 将路径作为目录      const dir = path.dirname(pathname);
          // 创建目录      mkdirp.sync(path.join(__dirname, dir));
          // 往文件写入内容      fs.writeFile(path.join(__dirname, pathname), html, "utf-8", (err) =>
 {
        // 打印错误信息        if (err) {
              console.log(err);
              return;
        }
        console.log(`[${
url}
    ]保存成功`);
      }
    );
          // 获取到页面中所有a元素      const aTags = $("a");
          Array.From(aTags).foreach((aTag) =>
 {
            // 获取到a标签中的路径        const href = $(aTag).attr("href");
            // 此处可以校验href的合法或者控制爬去的网站范围,比如必须都是某个域名下的        // 排除空标签        if (!href) return;
            // 排除锚点连接        if (href.startsWith("#")) return;
            if (href.startsWith("mailto:")) return;
            // 如果不想要保存图片可以过滤掉        // if (/\.(jpg|jPEg|png|gif|bit)$/.test(href)) return;
        // href必须是入口url域名        let reg = new RegExp(`^https?:\/\/${
host}
    `);
            if (/^https?:\/\//.test(href) &
    &
     !reg.test(href)) return;
            // 可以根据情况增加更多逻辑        let newUrl = "";
        if (/^https?:\/\//.test(href)) {
              // 处理绝对路径          newUrl = href;
        }
 else {
              // 处理相对路径          newUrl = origin + path.join(dir, href);
        }
            // 判断是否访问过        if (set.has(newUrl)) return;
            if (newUrl.endsWith("/") &
    &
     set.has(newUrl + "index.html")) return;
            if (newUrl.endsWith("/")) newUrl += "index.html";
            set.add(newUrl);
            grab(newUrl);
      }
    );
    }
    );
}
    // 开始抓取grab(homeUrl);
    

总结

简单的网页爬虫就完成了,可以把homeUrl改成自己想要爬取的网站试试。

更多node相关知识,请访问:nodejs 教程!!

以上就是聊聊node中怎么借助第三方开源库实现网站爬取功能的详细内容,更多请关注其它相关文章!

声明:本文内容由网友自发贡献,本站不承担相应法律责任。对本内容有异议或投诉,请联系2913721942#qq.com核实处理,我们将尽快回复您,谢谢合作!

node

若转载请注明出处: 聊聊node中怎么借助第三方开源库实现网站爬取功能
本文地址: https://pptw.com/jishu/593349.html
了解TypeScript数据类型中的模板字面量 什么是C#中的继承?C#继承是什么意思

游客 回复需填写必要信息