Java爬携程_Java数据爬取——爬取携程酒店数据(二)
时间: 2023-10-03 11:05:15 浏览: 336
在上一篇文章中,我们介绍了如何通过Java代码模拟浏览器行为来爬取携程网站上的酒店列表数据。本篇文章将继续介绍如何通过Java代码获取酒店详情页面的数据。
1. 获取酒店详情页面URL
在上一篇文章中,我们已经可以获取到酒店列表页面的数据。接下来,我们需要从列表页面中获取每个酒店的详情页面URL。我们可以通过以下代码来获取URL:
```java
// 获取酒店详情页面URL
Elements hotelLinks = doc.select(".hotel_item a[href^=//hotels.ctrip.com/hotel/]");
for (Element link : hotelLinks) {
String href = link.attr("href");
hotelUrls.add("http:" + href);
}
```
这里我们使用了Jsoup框架提供的选择器功能,选取class为“hotel_item”的元素,然后再选取其中的a标签,并且href属性值以“//hotels.ctrip.com/hotel/”开头的元素。然后再遍历这些元素,获取其中的href属性值并加上“http:”前缀,即是酒店详情页面的URL。
2. 解析酒店详情页面数据
获取到酒店详情页面的URL后,我们需要再次模拟浏览器行为,访问该URL并获取页面数据。我们可以通过以下代码来实现:
```java
// 获取酒店详情页面数据
for (String url : hotelUrls) {
Document hotelDoc = Jsoup.connect(url).userAgent(USER_AGENT).get();
String hotelName = hotelDoc.select(".hotel_intro dt").text();
String address = hotelDoc.select(".hotel_address a").text();
String score = hotelDoc.select(".hotel_score .score_num").text();
String commentNum = hotelDoc.select(".hotel_judgement .hotel_judgement_judgement").text();
String price = hotelDoc.select(".hotel_intro .hotel_price span").text();
hotels.add(new Hotel(hotelName, address, score, commentNum, price));
}
```
这里我们同样使用了Jsoup框架来获取页面数据。首先,我们遍历所有酒店详情页面的URL,然后通过Jsoup.connect()方法连接到该URL并获取页面数据。接着,我们使用选择器选取需要的元素,例如酒店名称、地址、评分、评论数和价格等,并将其保存到一个自定义的Hotel对象中。最后,我们将所有的Hotel对象添加到一个列表中,以便后续的数据处理。
3. 数据保存
获取到所有酒店的数据后,我们可以将其保存到本地文件中,也可以将其保存到数据库中。这里我们使用了JDBC连接MySQL数据库,并将数据保存到一个名为“hotels”的表中。以下是保存数据的代码:
```java
// 保存酒店数据到数据库
Connection conn = null;
PreparedStatement stmt = null;
try {
Class.forName(JDBC_DRIVER);
conn = DriverManager.getConnection(DB_URL, USER, PASS);
String sql = "INSERT INTO hotels (name, address, score, comment_num, price) VALUES (?, ?, ?, ?, ?)";
stmt = conn.prepareStatement(sql);
for (Hotel hotel : hotels) {
stmt.setString(1, hotel.getName());
stmt.setString(2, hotel.getAddress());
stmt.setString(3, hotel.getScore());
stmt.setString(4, hotel.getCommentNum());
stmt.setString(5, hotel.getPrice());
stmt.executeUpdate();
}
} catch (SQLException se) {
se.printStackTrace();
} catch (Exception e) {
e.printStackTrace();
} finally {
try {
if (stmt != null) stmt.close();
} catch (SQLException se2) {
}
try {
if (conn != null) conn.close();
} catch (SQLException se) {
se.printStackTrace();
}
}
```
这里我们使用了JDBC框架来连接数据库,并执行SQL语句将酒店数据保存到数据库中。最后,我们需要在finally块中关闭数据库连接和语句对象,以释放资源。
总结
本篇文章介绍了如何通过Java代码获取携程网站上的酒店详情页面数据,并将其保存到MySQL数据库中。这个过程涉及到了许多技术,例如模拟浏览器行为、页面数据解析、数据库连接等。通过这个案例,我们可以更好地理解Java爬虫的实现原理和技术要点。
阅读全文