一.简介
Jsoup是一款Java 的HTML解析器,可直接解析某个URL地址、HTML文本内容。它提供了一套非常省力的API,可通过DOM,CSS以及类似于jQuery的操作方法来取出和操作数据。网址:https://jsoup.org/。Sitemapgen4j是一个使用Java编写的Sitemap输出库包,通过使用SitemapGen4j你可以可以添加任意数量的URL,可以得到gzip压缩输出,可以设置上次更改选项,可以设置优先级选项,可以设置更改频率,可以设定日期格式,可以验证站点地图使用XML架构定义(XSD)。
二.代码实现
1.maven中pom.xml引入这两个插件
<!-- 网站地址生成-->
<dependency>
<groupId>com.github.dfabulich</groupId>
<artifactId>sitemapgen4j</artifactId>
<version>1.1.1</version>
</dependency>
<!-- Jsoup https://jsoup.org/ jsoup 是一款Java 的HTML解析器,可直接解析某个URL地址、HTML文本内容。它提供了一套非常省力的API,可通过DOM,CSS以及类似于jQuery的操作方法来取出和操作数据。-->
<dependency>
<groupId>org.jsoup</groupId>
<artifactId>jsoup</artifactId>
<version>1.14.2</version>
</dependency>
2.编写爬取网站的工具类
package com.tms.tblog.infrastructure.untils;
import org.jsoup.Jsoup;
import org.jsoup.nodes.Document;
import org.jsoup.nodes.Element;
import org.jsoup.select.Elements;
import java.net.URL;
import java.util.ArrayList;
import java.util.List;
import java.util.regex.Matcher;
import java.util.regex.Pattern;
public class GetSiteUrlUtil {
public static List getUrl(String uri) throws Exception{
List list=new ArrayList<>();//用list来存放地址
URL url=new URL(uri);
String protocol=url.getProtocol();//获取协议
String host=url.getHost();//获取域名
Document doc= Jsoup.connect(uri).get();//dom解析html
Elements ele=doc.getElementsByTag("a");//获取网页中的a标签
for(Element a:ele){//遍历
String href=a.attr("href");
/**
* a标签中有四种值,需要判断,例如:
* 1.只有路径:/xxx.html
* 2.含有js代码:javascript:void(0)
* 3.网址全称:https://tmspace.cn/xxxx.html
* 4.没有后缀/Info
*
*/
String reg="[a-zA-z]+://[^\\s]*";
Pattern p=Pattern.compile(reg);
Matcher m=p.matcher(href);
if(m.find()){//通过正则表达式匹配了第三种https://tmspace.cn/index
list.add(href);
}else if(href.indexOf("/")==0){//匹配第一四两种
/**
* /login/ind
* 0123456789
* 匹配出来的地址需要在前面加上协议和域名
*/
list.add(protocol+"://"+host+href);
}
}
return list;
}
}
3.编写生成网站地图的工具类
package com.tms.tblog.infrastructure.untils;
import com.redfin.sitemapgenerator.SitemapIndexGenerator;
import com.redfin.sitemapgenerator.W3CDateFormat;
import com.redfin.sitemapgenerator.WebSitemapGenerator;
import com.redfin.sitemapgenerator.WebSitemapUrl;
import java.io.File;
import java.net.MalformedURLException;
import java.net.URL;
import java.util.ArrayList;
import java.util.Date;
import java.util.List;
/**
* 生成网站地图方法
*/
public class GenerateSitemapUtil {
/**
* 生成网站地图方法
*
* @param TempPath 网站地图地址
* @param Url 网站域名
*/
public static void generateSitemap(String TempPath, String Url) {
String tempPath = TempPath;//"upload/img/";
File file = new File(tempPath);
if (!file.exists()) {
file.mkdirs();
}
String domain = Url;//"https://www.你的主域名.com";
try {
WebSitemapGenerator g1 = WebSitemapGenerator.builder(domain, file)
.fileNamePrefix("article").build();
;
Date date = new Date();
for (int i = 1; i < 21; i++) {
WebSitemapUrl url = new WebSitemapUrl.Options(domain + "/article/" + i).lastMod(date).build();
g1.addUrl(url);
}
List<String> fileNames = new ArrayList<>();
// 生成 sitemap 文件
List<File> articleFiles = g1.write();
articleFiles.forEach(e -> fileNames.add(e.getName()));
// 构造 sitemap_index 生成器
W3CDateFormat dateFormat = new W3CDateFormat(W3CDateFormat.Pattern.DAY);
SitemapIndexGenerator sitemapIndexGenerator = new SitemapIndexGenerator
.Options(domain, new File(tempPath + "sitemap_index.xml"))
.dateFormat(dateFormat)
.autoValidate(true)
.build();
fileNames.forEach(e -> {
try {
// 组装 sitemap 文件 URL 地址
sitemapIndexGenerator.addUrl(tempPath + e);
} catch (MalformedURLException e1) {
e1.printStackTrace();
}
});
// 生成 sitemap_index 文件
sitemapIndexGenerator.write();
} catch (MalformedURLException e) {
e.printStackTrace();
}
}
/**
* 生成网站地图方法
*
* @param TempPath 网站地图地址
* @param Url 网站域名
* @param Url pathList
*/
public static void generateSitemap(String TempPath, String Url, List pathList) {
String tempPath = TempPath;//"upload/img/";
File file = new File(tempPath);
if (!file.exists()) {
file.mkdirs();
}
String domain = Url;//"https://www.你的主域名.com";
try {
WebSitemapGenerator g1 = WebSitemapGenerator.builder(domain, file)
.fileNamePrefix("article").build();
Date date = new Date();
for (int i = 0; i < pathList.size(); i++) {
if (pathList.get(i).toString().toLowerCase().equals(Url) || pathList.get(i).toString().toLowerCase().contains(Url)) {
WebSitemapUrl url = new WebSitemapUrl.Options(pathList.get(i).toString()).lastMod(date).build();
g1.addUrl(url);
}
}
List<String> fileNames = new ArrayList<>();
// 生成 sitemap 文件
List<File> articleFiles = g1.write();
articleFiles.forEach(e -> fileNames.add(e.getName()));
// 构造 sitemap_index 生成器
W3CDateFormat dateFormat = new W3CDateFormat(W3CDateFormat.Pattern.DAY);
SitemapIndexGenerator sitemapIndexGenerator = new SitemapIndexGenerator
.Options(domain, new File(tempPath + "sitemap_index.xml"))
.dateFormat(dateFormat)
.autoValidate(true)
.build();
fileNames.forEach(e -> {
try {
// 组装 sitemap 文件 URL 地址
String AddUrl=Url+"/"+tempPath + e;
sitemapIndexGenerator.addUrl(AddUrl);
} catch (MalformedURLException e1) {
e1.printStackTrace();
}
});
for (int i = 0; i < pathList.size(); i++) {
if (pathList.get(i).toString().toLowerCase().equals(Url) || pathList.get(i).toString().toLowerCase().contains(Url)) {
String url = pathList.get(i).toString();
sitemapIndexGenerator.addUrl(url);
}
}
// 生成 sitemap_index 文件
sitemapIndexGenerator.write();
} catch (MalformedURLException e) {
e.printStackTrace();
}
}
}
4.编写一个controller用来调用这两个工具类
package com.tms.tblog.infrastructure.controller;
import com.tms.tblog.dto.ResultDto;
import com.tms.tblog.infrastructure.untils.GenerateSitemapUtil;
import com.tms.tblog.infrastructure.untils.GetSiteUrlUtil;
import io.swagger.annotations.Api;
import lombok.extern.log4j.Log4j2;
import org.springframework.web.bind.annotation.RequestMapping;
import org.springframework.web.bind.annotation.RestController;
import javax.servlet.http.HttpServletRequest;
import java.util.List;
/**
* 生成网站地图Controller
*/
@Api(tags = "生成网站地图Controller")
@RestController
@Log4j2
@RequestMapping("/tblog/Sitemap")
public class SitemapController {
@RequestMapping("/GenerateSitemap")
public void GenerateSitemap(HttpServletRequest req) throws Exception {
ResultDto res = new ResultDto();
String tempPath = "upload/sitemap/";
String Url = "https://tmspace.cn";
List list = GetSiteUrlUtil.getUrl(Url);
GenerateSitemapUtil.generateSitemap(tempPath,Url,list);
res.setData(list);
return res;
}
}
5.页面运行一下这个controller:https://localhost/tblog/Sitemap/GenerateSitemap

最后实现效果
1.页面调用

2.生成的文件

评论