帮我写一段Java爬虫代码
时间: 2023-03-09 18:36:11 浏览: 105
答:以下是一段简单的Java爬虫代码:import java.io.BufferedReader;
import java.io.IOException;
import java.io.InputStreamReader;
import java.net.URL;
public class JavaCrawler {
public static void main(String[] args) throws IOException {
// 要爬取的网页链接
String url = "https://www.example.com/";
// 创建一个URL对象
URL u = new URL(url);
// 打开URL对应的资源输入流
BufferedReader in = new BufferedReader(new InputStreamReader(u.openStream()));
// 遍历抓取到的每一行内容
String line;
while ((line = in.readLine()) != null) {
System.out.println(line);
}
// 关闭输入流
in.close();
}
}
相关问题
写一段java爬虫代码
好的,以下是一段简单的Java爬虫代码,它可以从指定的网站抓取数据并将结果输出到控制台:
```java
import java.io.IOException;
import org.jsoup.Jsoup;
import org.jsoup.nodes.Document;
import org.jsoup.select.Elements;
public class WebCrawler {
public static void main(String[] args) {
String url = "https://www.example.com";
try {
Document document = Jsoup.connect(url).get();
Elements elements = document.select("p"); // 这里选择抓取网页中所有的段落内容
for (int i = 0; i < elements.size(); i++)
System.out.println(elements.get(i).text());
} catch (IOException e) {
e.printStackTrace();
}
}
}
```
这段代码主要使用了Jsoup库,它是一个用于解析HTML的Java库,可以方便地获取HTML文档中的元素和属性。我们使用`connect`方法连接到指定的网站,并使用`get`方法获取网页源代码,然后使用`select`方法选择我们需要的元素,最后使用`text`方法获取元素的文本内容并输出到控制台。
可以帮我简单的写一段爬虫代码吗使用java
当然可以,这里是一个简单的 Java 爬虫代码:
```java
import java.io.IOException;
import java.net.URL;
import java.util.Scanner;
import java.util.regex.Matcher;
import java.util.regex.Pattern;
public class WebScraper {
public static void main(String[] args) {
String url = "https://www.example.com";
try {
String html = urlToString(url);
// 使用正则表达式提取网页中的链接
Pattern pattern = Pattern.compile("<a href=\"(.*?)\">");
Matcher matcher = pattern.matcher(html);
while (matcher.find()) {
System.out.println("Link: " + matcher.group(1));
}
} catch (IOException e) {
e.printStackTrace();
}
}
// 将 URL 转换为字符串
public static String urlToString(String url) throws IOException {
return new Scanner(new URL(url).openStream(), "UTF-8").useDelimiter("\\A").next();
}
}
```
这个程序会获取指定 URL 中的 HTML 内容,并使用正则表达式提取其中的链接。当然,这只是一个简单的爬虫示例,实际爬虫程序需要更多的工作来处理网络连接、HTTP 响应、解析 HTML 等问题。
阅读全文