jsoup 爬取公众号发布时间
时间: 2023-11-14 20:59:54 浏览: 116
爬取公众号页面内容
使用jsoup爬取公众号发布时间的步骤如下:
1. 找到公众号文章的URL,例如 https://mp.weixin.qq.com/s/xxxxxxxxxxxxx
2. 使用jsoup获取该文章的HTML源代码,代码示例:
```java
String url = "https://mp.weixin.qq.com/s/xxxxxxxxxxxxx";
Document doc = Jsoup.connect(url).get();
```
3. 查找文章发布时间的HTML标签,一般为`<em>日期</em>`或`<span class="date">日期</span>`等,具体标签根据公众号的HTML结构而定。
4. 使用jsoup获取该标签的文本内容,代码示例:
```java
Elements dateElems = doc.select("em");
String dateStr = dateElems.get(0).text();
```
5. 将日期字符串转换成Date类型,可以使用SimpleDateFormat类解析日期字符串,代码示例:
```java
SimpleDateFormat sdf = new SimpleDateFormat("yyyy-MM-dd HH:mm:ss");
Date date = sdf.parse(dateStr);
```
6. 完整的代码示例:
```java
import java.io.IOException;
import java.text.ParseException;
import java.text.SimpleDateFormat;
import java.util.Date;
import org.jsoup.Jsoup;
import org.jsoup.nodes.Document;
import org.jsoup.select.Elements;
public class WechatSpider {
public static void main(String[] args) throws IOException, ParseException {
String url = "https://mp.weixin.qq.com/s/xxxxxxxxxxxxx";
Document doc = Jsoup.connect(url).get();
Elements dateElems = doc.select("em");
String dateStr = dateElems.get(0).text();
SimpleDateFormat sdf = new SimpleDateFormat("yyyy-MM-dd HH:mm:ss");
Date date = sdf.parse(dateStr);
System.out.println("发布时间:" + date);
}
}
```
阅读全文