java爬虫爬取淘宝商品信息
时间: 2023-10-24 07:06:27 浏览: 160
要爬取淘宝商品信息,可以使用 Java 编写爬虫程序,利用 HTTP 请求获取需要的数据,然后解析 HTML 页面,提取出商品信息。
以下是一个简单的示例程序,展示如何使用 Java 爬虫爬取淘宝商品信息:
```java
import org.jsoup.Jsoup;
import org.jsoup.nodes.Document;
import org.jsoup.nodes.Element;
import org.jsoup.select.Elements;
import java.io.IOException;
public class TaobaoSpider {
public static void main(String[] args) throws IOException {
// 搜索的关键字
String keyword = "手机";
// 搜索的页数
int page = 1;
// 爬取的 URL
String url = "https://s.taobao.com/search?q=" + keyword + "&s=" + (page - 1) * 44;
// 发送 HTTP 请求
Document doc = Jsoup.connect(url).timeout(10000).get();
// 获取商品列表
Elements items = doc.select(".m-itemlist .items .item");
// 遍历商品列表
for (Element item : items) {
// 获取商品标题
String title = item.select(".title").text();
// 获取商品价格
String price = item.select(".price").text();
// 输出商品信息
System.out.println("标题:" + title);
System.out.println("价格:" + price);
System.out.println("---------------");
}
}
}
```
这个程序使用了 Jsoup 库来解析 HTML 页面,通过发送 HTTP 请求,获取淘宝搜索结果页面的 HTML 内容,然后通过选择器选择需要的元素,例如商品标题和价格。最后输出商品的信息。
阅读全文