用java写一个爬取豆瓣电影排名前100的电影信息的爬虫程序
时间: 2023-11-12 21:08:33 浏览: 203
以下是一个使用 Java 编写的简单豆瓣电影排名前100的电影信息爬虫程序示例:
```java
import org.jsoup.Jsoup;
import org.jsoup.nodes.Document;
import org.jsoup.nodes.Element;
import org.jsoup.select.Elements;
import java.io.IOException;
public class DoubanMovieSpider {
public static void main(String[] args) {
String url = "https://movie.douban.com/top250";
try {
Document doc = Jsoup.connect(url).get();
Elements movieList = doc.select(".grid_view li");
for (Element movie : movieList) {
String title = movie.select(".title").text();
String rating = movie.select(".rating_num").text();
String quote = movie.select(".inq").text();
System.out.println("电影名称:" + title);
System.out.println("评分:" + rating);
System.out.println("经典台词:" + quote);
System.out.println("---------------------------");
}
} catch (IOException e) {
e.printStackTrace();
}
}
}
```
上述代码使用了 Jsoup 库来进行网页的解析和数据提取。程序首先使用 `Jsoup.connect(url).get()` 获取指定 URL 的网页内容,然后通过 CSS 选择器来提取电影列表中的电影名称、评分和经典台词等信息。
通过遍历电影列表的每个元素,使用 `select()` 方法和相应的 CSS 选择器来提取所需的信息,并将其打印出来。
你可以运行上述代码,即可获取豆瓣电影排名前100的电影信息。请注意,爬取网页数据可能涉及一定的法律和道德问题,请确保你的爬取行为符合相关规定和网站的使用条款。
阅读全文