21.Springboot使用Jsoup和sitemapgen4j动态生成网站地图 - 技术博客
程序智享家
精彩内容加载中

21.Springboot使用Jsoup和sitemapgen4j动态生成网站地图

Sitemapgen4j是一个使用Java编写的Sitemap输出库包,通过使用SitemapGen4j你可以可以添加任意数量的URL,可以得到gzip压缩输出,可以设置上次更改选项,可以设置优先级选项,可以设置更改频率,可以设定日期格式,可以验证站点地图使用XML架构定义(XSD)。

admin 2025-02-10 8879 阅读 0 评论 java框架

一.简介

Jsoup是一款Java 的HTML解析器,可直接解析某个URL地址、HTML文本内容。它提供了一套非常省力的API,可通过DOM,CSS以及类似于jQuery的操作方法来取出和操作数据。网址:https://jsoup.org/。Sitemapgen4j是一个使用Java编写的Sitemap输出库包,通过使用SitemapGen4j你可以可以添加任意数量的URL,可以得到gzip压缩输出,可以设置上次更改选项,可以设置优先级选项,可以设置更改频率,可以设定日期格式,可以验证站点地图使用XML架构定义(XSD)。

二.代码实现

1.maven中pom.xml引入这两个插件

<!-- 网站地址生成-->
<dependency>
    <groupId>com.github.dfabulich</groupId>
    <artifactId>sitemapgen4j</artifactId>
    <version>1.1.1</version>
</dependency>
<!-- Jsoup https://jsoup.org/ jsoup 是一款Java 的HTML解析器,可直接解析某个URL地址、HTML文本内容。它提供了一套非常省力的API,可通过DOM,CSS以及类似于jQuery的操作方法来取出和操作数据。-->
<dependency>
    <groupId>org.jsoup</groupId>
    <artifactId>jsoup</artifactId>
    <version>1.14.2</version>
</dependency>

2.编写爬取网站的工具类

package com.tms.tblog.infrastructure.untils;

import org.jsoup.Jsoup;
import org.jsoup.nodes.Document;
import org.jsoup.nodes.Element;
import org.jsoup.select.Elements;

import java.net.URL;
import java.util.ArrayList;
import java.util.List;
import java.util.regex.Matcher;
import java.util.regex.Pattern;

public class GetSiteUrlUtil {
    public static List getUrl(String uri) throws Exception{
        List list=new ArrayList<>();//用list来存放地址
        URL url=new URL(uri);
        String protocol=url.getProtocol();//获取协议
        String host=url.getHost();//获取域名
        Document doc= Jsoup.connect(uri).get();//dom解析html
        Elements ele=doc.getElementsByTag("a");//获取网页中的a标签
        for(Element a:ele){//遍历
            String href=a.attr("href");
            /**
             * a标签中有四种值,需要判断,例如:
             * 1.只有路径:/xxx.html
             * 2.含有js代码:javascript:void(0)
             * 3.网址全称:https://tmspace.cn/xxxx.html
             * 4.没有后缀/Info
             *
             */
            String reg="[a-zA-z]+://[^\\s]*";
            Pattern p=Pattern.compile(reg);
            Matcher m=p.matcher(href);
            if(m.find()){//通过正则表达式匹配了第三种https://tmspace.cn/index
                list.add(href);
            }else if(href.indexOf("/")==0){//匹配第一四两种
                /**
                 * /login/ind
                 * 0123456789
                 * 匹配出来的地址需要在前面加上协议和域名
                 */
                list.add(protocol+"://"+host+href);
            }
        }
        return list;
    }
}

3.编写生成网站地图的工具类

package com.tms.tblog.infrastructure.untils;

import com.redfin.sitemapgenerator.SitemapIndexGenerator;
import com.redfin.sitemapgenerator.W3CDateFormat;
import com.redfin.sitemapgenerator.WebSitemapGenerator;
import com.redfin.sitemapgenerator.WebSitemapUrl;

import java.io.File;
import java.net.MalformedURLException;
import java.net.URL;
import java.util.ArrayList;
import java.util.Date;
import java.util.List;

/**
 * 生成网站地图方法
 */
public class GenerateSitemapUtil {
    /**
     * 生成网站地图方法
     *
     * @param TempPath 网站地图地址
     * @param Url      网站域名
     */
    public static void generateSitemap(String TempPath, String Url) {
        String tempPath = TempPath;//"upload/img/";
        File file = new File(tempPath);
        if (!file.exists()) {
            file.mkdirs();
        }
        String domain = Url;//"https://www.你的主域名.com";
        try {
            WebSitemapGenerator g1 = WebSitemapGenerator.builder(domain, file)
                    .fileNamePrefix("article").build();
            ;
            Date date = new Date();
            for (int i = 1; i < 21; i++) {
                WebSitemapUrl url = new WebSitemapUrl.Options(domain + "/article/" + i).lastMod(date).build();
                g1.addUrl(url);
            }


            List<String> fileNames = new ArrayList<>();

            // 生成 sitemap 文件
            List<File> articleFiles = g1.write();
            articleFiles.forEach(e -> fileNames.add(e.getName()));

            // 构造 sitemap_index 生成器
            W3CDateFormat dateFormat = new W3CDateFormat(W3CDateFormat.Pattern.DAY);
            SitemapIndexGenerator sitemapIndexGenerator = new SitemapIndexGenerator
                    .Options(domain, new File(tempPath + "sitemap_index.xml"))
                    .dateFormat(dateFormat)
                    .autoValidate(true)
                    .build();

            fileNames.forEach(e -> {
                try {
                    // 组装 sitemap 文件 URL 地址
                    sitemapIndexGenerator.addUrl(tempPath + e);
                } catch (MalformedURLException e1) {
                    e1.printStackTrace();
                }
            });

            // 生成 sitemap_index 文件
            sitemapIndexGenerator.write();

        } catch (MalformedURLException e) {
            e.printStackTrace();
        }
    }

    /**
     * 生成网站地图方法
     *
     * @param TempPath 网站地图地址
     * @param Url      网站域名
     * @param Url      pathList
     */
    public static void generateSitemap(String TempPath, String Url, List pathList) {
        String tempPath = TempPath;//"upload/img/";
        File file = new File(tempPath);
        if (!file.exists()) {
            file.mkdirs();
        }
        String domain = Url;//"https://www.你的主域名.com";
        try {
            WebSitemapGenerator g1 = WebSitemapGenerator.builder(domain, file)
                    .fileNamePrefix("article").build();

            Date date = new Date();
            for (int i = 0; i < pathList.size(); i++) {
                if (pathList.get(i).toString().toLowerCase().equals(Url) || pathList.get(i).toString().toLowerCase().contains(Url)) {
                    WebSitemapUrl url = new WebSitemapUrl.Options(pathList.get(i).toString()).lastMod(date).build();
                    g1.addUrl(url);
                }
            }


            List<String> fileNames = new ArrayList<>();

            // 生成 sitemap 文件
            List<File> articleFiles = g1.write();
            articleFiles.forEach(e -> fileNames.add(e.getName()));

            // 构造 sitemap_index 生成器
            W3CDateFormat dateFormat = new W3CDateFormat(W3CDateFormat.Pattern.DAY);
            SitemapIndexGenerator sitemapIndexGenerator = new SitemapIndexGenerator
                    .Options(domain, new File(tempPath + "sitemap_index.xml"))
                    .dateFormat(dateFormat)
                    .autoValidate(true)
                    .build();

            fileNames.forEach(e -> {
                try {
                    // 组装 sitemap 文件 URL 地址
                    String AddUrl=Url+"/"+tempPath + e;
                    sitemapIndexGenerator.addUrl(AddUrl);
                } catch (MalformedURLException e1) {
                    e1.printStackTrace();
                }
            });

            for (int i = 0; i < pathList.size(); i++) {
                if (pathList.get(i).toString().toLowerCase().equals(Url) || pathList.get(i).toString().toLowerCase().contains(Url)) {
                    String url = pathList.get(i).toString();
                    sitemapIndexGenerator.addUrl(url);
                }

            }
            // 生成 sitemap_index 文件
            sitemapIndexGenerator.write();

        } catch (MalformedURLException e) {
            e.printStackTrace();
        }
    }
}

4.编写一个controller用来调用这两个工具类

package com.tms.tblog.infrastructure.controller;


import com.tms.tblog.dto.ResultDto;
import com.tms.tblog.infrastructure.untils.GenerateSitemapUtil;
import com.tms.tblog.infrastructure.untils.GetSiteUrlUtil;
import io.swagger.annotations.Api;
import lombok.extern.log4j.Log4j2;
import org.springframework.web.bind.annotation.RequestMapping;
import org.springframework.web.bind.annotation.RestController;

import javax.servlet.http.HttpServletRequest;
import java.util.List;

/**
 * 生成网站地图Controller
 */

@Api(tags = "生成网站地图Controller")
@RestController
@Log4j2
@RequestMapping("/tblog/Sitemap")
public class SitemapController {

    @RequestMapping("/GenerateSitemap")
    public void GenerateSitemap(HttpServletRequest req) throws Exception {
        ResultDto res = new ResultDto();
        String tempPath = "upload/sitemap/";
        String Url = "https://tmspace.cn";
        List list = GetSiteUrlUtil.getUrl(Url);
        GenerateSitemapUtil.generateSitemap(tempPath,Url,list);
        res.setData(list);
        return res;
    }
}

5.页面运行一下这个controller:https://localhost/tblog/Sitemap/GenerateSitemap

最后实现效果

1.页面调用

2.生成的文件

推荐阅读

7.SpringBoot使用Aop监控接口的执行状况 AOP(Aspect Oriented Programming),即面向切面编程,可以说是OOP(Object Oriented Programming,面向对… 5.SpringBoot配置自动生成代码 AutoGenerator 是 MyBatis-Plus 的代码生成器,通过 AutoGenerator 可以快速生成 Entity、Mapper、Mapper… 4.SpringBoot配置MyBatis-Plus MyBatis-Plus (opens new window)(简称 MP)是一个 MyBatis (opens new window)的增强工具,在 MyBa… 3.Springboot配置跨域 Springboot配置跨域有很多种方式,今天我们来看一下有哪几种方式,第一种方法还是比较常见的。… 2.SpringBoot配置lombok Lombok想要解决了的是在我们实体Bean中大量的Getter/Setter方法,以及toString, hashCode等可能不会用到,但是某些时候仍然需要… 1.SpringBoot框架搭建 Spring Boot 是 Pivotal 团队在 Spring 的基础上提供的一套全新的开源框架,其目的是为了简化 Spring 应用的搭建和开发过程。… 8.Springboot整合log4j2日志 Apache Log4j 2 是对 Log4j 的升级,它比其前身 Log4j 1.x 提供了重大改进,并提供了 Logback 中可用的许多改进,同时修复了 … 9.SpringBoot配置Redis Redis(Remote Dictionary Server ),即远程字典服务,是一个开源的使用ANSI C语言编写、支持网络、可基于内存亦可持久化的日志型、… 10.SpringBoot配置Druid连接池 连接池的作用是为了提高性能,将已经创建好的连接保存在池中,当有请求来时,直接使用已经创建好的连接对Server端进行访问。这样省略(复用)了创建连接和销毁连接的… 11.SpringBoot配置Swagger3 Swagger3(也被称为OpenAPI 3)是一个开放源代码项目,它定义了用于描述、生产、消费和可视化RESTful Web服务的规范。… 12.SpringBoot统一异常处理 在 Spring Boot 应用中,统一异常处理是一种非常实用的技术,它可以帮助我们集中管理和处理应用程序中抛出的异常,避免在每个控制器方法中重复编写异常处理代… 13.SpringBoot配置Thymeleaf Thymeleaf是一个java类库,他是一个优秀的、面向Java 的xml/xhtml/html5的模板引擎,可以作为mvc的web应用的view层,具有丰富… 14.SpringBoot图片文件上传 图片文件上传是经常会用到的功能,尤其是做一些大型企业网站。… 15.Springboot多模块配置 在开发大型项目时,使用 Spring Boot 多模块配置可以将项目拆分成多个独立的模块,便于团队协作开发、代码管理和维护。以下为你详细介绍 Spring Bo… 16.SpringBoot配置SSL证书 在 Spring Boot 中配置 SSL 证书可以为应用程序提供安全的 HTTPS 连接,增强数据传输的安全性。… 17.SpringBoot项目打包成jar包 打包springboot项目有两种方法,一个是直接通过mvn命令打包,另一个是使用工具打包,例如idea… 18.SpringBoot实现图片压缩 在上传图片的时候进行图片压缩,这样虽然破环了原图片的清晰度,不影响图片的美感,博客用来作为缩略图正好。… 19.Java生成sitemap网站地图 Sitemap(网站地图)在网站管理和搜索引擎优化(SEO)中扮演着重要角色。在Java中生成网站地图(sitemap)通常涉及创建一个XML文件,该文件列出了… 20.springboot使用Jsoup解析html,抓取一个网站上的全部链接 soup 是一款Java 的HTML解析器,可直接解析某个URL地址、HTML文本内容。它提供了一套非常省力的API,可通过DOM,CSS以及类似于jQuery…

评论 (0)

暂无评论,快来抢沙发吧