21.Springboot使用Jsoup和sitemapgen4j动态生成网站地图

作者: admin | 创建时间: 2025-02-10 14:56:04 文章分类: java框架

文章简介: Sitemapgen4j是一个使用Java编写的Sitemap输出库包,通过使用SitemapGen4j你可以可以添加任意数量的URL,可以得到gzip压缩输出,可以设置上次更改选项,可以设置优先级选项,可以设置更改频率,可以设定日期格式,可以验证站点地图使用XML架构定义(XSD)。

一.简介

Jsoup是一款Java 的HTML解析器,可直接解析某个URL地址、HTML文本内容。它提供了一套非常省力的API,可通过DOM,CSS以及类似于jQuery的操作方法来取出和操作数据。网址:https://jsoup.org/。Sitemapgen4j是一个使用Java编写的Sitemap输出库包,通过使用SitemapGen4j你可以可以添加任意数量的URL,可以得到gzip压缩输出,可以设置上次更改选项,可以设置优先级选项,可以设置更改频率,可以设定日期格式,可以验证站点地图使用XML架构定义(XSD)。

二.代码实现

1.maven中pom.xml引入这两个插件

<!-- 网站地址生成-->
<dependency>
    <groupId>com.github.dfabulich</groupId>
    <artifactId>sitemapgen4j</artifactId>
    <version>1.1.1</version>
</dependency>
<!-- Jsoup https://jsoup.org/ jsoup 是一款Java 的HTML解析器,可直接解析某个URL地址、HTML文本内容。它提供了一套非常省力的API,可通过DOM,CSS以及类似于jQuery的操作方法来取出和操作数据。-->
<dependency>
    <groupId>org.jsoup</groupId>
    <artifactId>jsoup</artifactId>
    <version>1.14.2</version>
</dependency>

2.编写爬取网站的工具类

package com.tms.tblog.infrastructure.untils;

import org.jsoup.Jsoup;
import org.jsoup.nodes.Document;
import org.jsoup.nodes.Element;
import org.jsoup.select.Elements;

import java.net.URL;
import java.util.ArrayList;
import java.util.List;
import java.util.regex.Matcher;
import java.util.regex.Pattern;

public class GetSiteUrlUtil {
    public static List getUrl(String uri) throws Exception{
        List list=new ArrayList<>();//用list来存放地址
        URL url=new URL(uri);
        String protocol=url.getProtocol();//获取协议
        String host=url.getHost();//获取域名
        Document doc= Jsoup.connect(uri).get();//dom解析html
        Elements ele=doc.getElementsByTag("a");//获取网页中的a标签
        for(Element a:ele){//遍历
            String href=a.attr("href");
            /**
             * a标签中有四种值,需要判断,例如:
             * 1.只有路径:/xxx.html
             * 2.含有js代码:javascript:void(0)
             * 3.网址全称:https://tmspace.cn/xxxx.html
             * 4.没有后缀/Info
             *
             */
            String reg="[a-zA-z]+://[^\\s]*";
            Pattern p=Pattern.compile(reg);
            Matcher m=p.matcher(href);
            if(m.find()){//通过正则表达式匹配了第三种https://tmspace.cn/index
                list.add(href);
            }else if(href.indexOf("/")==0){//匹配第一四两种
                /**
                 * /login/ind
                 * 0123456789
                 * 匹配出来的地址需要在前面加上协议和域名
                 */
                list.add(protocol+"://"+host+href);
            }
        }
        return list;
    }
}

3.编写生成网站地图的工具类

package com.tms.tblog.infrastructure.untils;

import com.redfin.sitemapgenerator.SitemapIndexGenerator;
import com.redfin.sitemapgenerator.W3CDateFormat;
import com.redfin.sitemapgenerator.WebSitemapGenerator;
import com.redfin.sitemapgenerator.WebSitemapUrl;

import java.io.File;
import java.net.MalformedURLException;
import java.net.URL;
import java.util.ArrayList;
import java.util.Date;
import java.util.List;

/**
 * 生成网站地图方法
 */
public class GenerateSitemapUtil {
    /**
     * 生成网站地图方法
     *
     * @param TempPath 网站地图地址
     * @param Url      网站域名
     */
    public static void generateSitemap(String TempPath, String Url) {
        String tempPath = TempPath;//"upload/img/";
        File file = new File(tempPath);
        if (!file.exists()) {
            file.mkdirs();
        }
        String domain = Url;//"https://www.你的主域名.com";
        try {
            WebSitemapGenerator g1 = WebSitemapGenerator.builder(domain, file)
                    .fileNamePrefix("article").build();
            ;
            Date date = new Date();
            for (int i = 1; i < 21; i++) {
                WebSitemapUrl url = new WebSitemapUrl.Options(domain + "/article/" + i).lastMod(date).build();
                g1.addUrl(url);
            }


            List<String> fileNames = new ArrayList<>();

            // 生成 sitemap 文件
            List<File> articleFiles = g1.write();
            articleFiles.forEach(e -> fileNames.add(e.getName()));

            // 构造 sitemap_index 生成器
            W3CDateFormat dateFormat = new W3CDateFormat(W3CDateFormat.Pattern.DAY);
            SitemapIndexGenerator sitemapIndexGenerator = new SitemapIndexGenerator
                    .Options(domain, new File(tempPath + "sitemap_index.xml"))
                    .dateFormat(dateFormat)
                    .autoValidate(true)
                    .build();

            fileNames.forEach(e -> {
                try {
                    // 组装 sitemap 文件 URL 地址
                    sitemapIndexGenerator.addUrl(tempPath + e);
                } catch (MalformedURLException e1) {
                    e1.printStackTrace();
                }
            });

            // 生成 sitemap_index 文件
            sitemapIndexGenerator.write();

        } catch (MalformedURLException e) {
            e.printStackTrace();
        }
    }

    /**
     * 生成网站地图方法
     *
     * @param TempPath 网站地图地址
     * @param Url      网站域名
     * @param Url      pathList
     */
    public static void generateSitemap(String TempPath, String Url, List pathList) {
        String tempPath = TempPath;//"upload/img/";
        File file = new File(tempPath);
        if (!file.exists()) {
            file.mkdirs();
        }
        String domain = Url;//"https://www.你的主域名.com";
        try {
            WebSitemapGenerator g1 = WebSitemapGenerator.builder(domain, file)
                    .fileNamePrefix("article").build();

            Date date = new Date();
            for (int i = 0; i < pathList.size(); i++) {
                if (pathList.get(i).toString().toLowerCase().equals(Url) || pathList.get(i).toString().toLowerCase().contains(Url)) {
                    WebSitemapUrl url = new WebSitemapUrl.Options(pathList.get(i).toString()).lastMod(date).build();
                    g1.addUrl(url);
                }
            }


            List<String> fileNames = new ArrayList<>();

            // 生成 sitemap 文件
            List<File> articleFiles = g1.write();
            articleFiles.forEach(e -> fileNames.add(e.getName()));

            // 构造 sitemap_index 生成器
            W3CDateFormat dateFormat = new W3CDateFormat(W3CDateFormat.Pattern.DAY);
            SitemapIndexGenerator sitemapIndexGenerator = new SitemapIndexGenerator
                    .Options(domain, new File(tempPath + "sitemap_index.xml"))
                    .dateFormat(dateFormat)
                    .autoValidate(true)
                    .build();

            fileNames.forEach(e -> {
                try {
                    // 组装 sitemap 文件 URL 地址
                    String AddUrl=Url+"/"+tempPath + e;
                    sitemapIndexGenerator.addUrl(AddUrl);
                } catch (MalformedURLException e1) {
                    e1.printStackTrace();
                }
            });

            for (int i = 0; i < pathList.size(); i++) {
                if (pathList.get(i).toString().toLowerCase().equals(Url) || pathList.get(i).toString().toLowerCase().contains(Url)) {
                    String url = pathList.get(i).toString();
                    sitemapIndexGenerator.addUrl(url);
                }

            }
            // 生成 sitemap_index 文件
            sitemapIndexGenerator.write();

        } catch (MalformedURLException e) {
            e.printStackTrace();
        }
    }
}

4.编写一个controller用来调用这两个工具类

package com.tms.tblog.infrastructure.controller;


import com.tms.tblog.dto.ResultDto;
import com.tms.tblog.infrastructure.untils.GenerateSitemapUtil;
import com.tms.tblog.infrastructure.untils.GetSiteUrlUtil;
import io.swagger.annotations.Api;
import lombok.extern.log4j.Log4j2;
import org.springframework.web.bind.annotation.RequestMapping;
import org.springframework.web.bind.annotation.RestController;

import javax.servlet.http.HttpServletRequest;
import java.util.List;

/**
 * 生成网站地图Controller
 */

@Api(tags = "生成网站地图Controller")
@RestController
@Log4j2
@RequestMapping("/tblog/Sitemap")
public class SitemapController {

    @RequestMapping("/GenerateSitemap")
    public void GenerateSitemap(HttpServletRequest req) throws Exception {
        ResultDto res = new ResultDto();
        String tempPath = "upload/sitemap/";
        String Url = "https://tmspace.cn";
        List list = GetSiteUrlUtil.getUrl(Url);
        GenerateSitemapUtil.generateSitemap(tempPath,Url,list);
        res.setData(list);
        return res;
    }
}

5.页面运行一下这个controller:https://localhost/tblog/Sitemap/GenerateSitemap

最后实现效果

1.页面调用

2.生成的文件

评论

目录

    关闭