用JavaURL编程爬取并分析网页敏感词
时间: 2024-02-04 09:03:22 浏览: 81
JAVA写的网页爬取代码
首先,你需要引入 Java 的 URL 和 IO 相关的库,代码如下:
```java
import java.io.BufferedReader;
import java.io.InputStreamReader;
import java.net.URL;
```
接下来,你需要定义一个方法来获取网页的内容,代码如下:
```java
public static String getHtml(String urlString) throws Exception {
// 创建 URL 对象
URL url = new URL(urlString);
// 打开连接
BufferedReader reader = new BufferedReader(new InputStreamReader(url.openStream()));
// 读取数据
String line;
StringBuilder stringBuilder = new StringBuilder();
while ((line = reader.readLine()) != null) {
stringBuilder.append(line);
}
reader.close();
// 返回网页内容
return stringBuilder.toString();
}
```
在这个方法中,你需要传入一个字符串类型的参数 `urlString`,表示需要爬取的网页地址。然后,通过 `URL` 类创建一个连接对象,用 `BufferedReader` 类读取网页内容,最后返回一个字符串类型的内容。
接下来,你需要定义一个方法来分析网页敏感词,代码如下:
```java
public static boolean analyzeHtml(String htmlContent, String[] sensitiveWords) {
// 遍历所有敏感词
for (String word : sensitiveWords) {
// 判断当前敏感词是否存在于网页中
if (htmlContent.contains(word)) {
return true;
}
}
return false;
}
```
在这个方法中,你需要传入两个参数:一个是字符串类型的 `htmlContent`,表示需要分析的网页内容;另一个是字符串类型的 `sensitiveWords`,表示需要检测的敏感词数组。方法中会遍历所有敏感词,判断当前敏感词是否存在于网页中,如果存在则返回 true,表示网页包含敏感词;否则返回 false,表示网页不包含敏感词。
最后,你可以在主函数中调用以上两个方法,代码如下:
```java
public static void main(String[] args) {
try {
// 爬取网页内容
String htmlContent = getHtml("https://www.example.com/");
// 敏感词数组
String[] sensitiveWords = {"敏感词1", "敏感词2", "敏感词3"};
// 分析网页敏感词
boolean hasSensitiveWords = analyzeHtml(htmlContent, sensitiveWords);
if (hasSensitiveWords) {
System.out.println("网页包含敏感词");
} else {
System.out.println("网页不包含敏感词");
}
} catch (Exception e) {
e.printStackTrace();
}
}
```
在这个示例中,我们爬取了一个网页的内容,并定义了一个敏感词数组,然后调用了分析网页敏感词的方法。如果网页包含敏感词,则输出 `网页包含敏感词`;否则输出 `网页不包含敏感词`。
阅读全文