首页亚马逊爬虫java代码示例

亚马逊爬虫java代码示例

时间: 2023-03-02 13:14:44 浏览: 240

以下是一个 Java 代码示例，该爬虫使用了 Apache HttpClient 库来发送 HTTP 请求并解析页面内容。

import org.apache.http.HttpResponse;
import org.apache.http.client.HttpClient;
import org.apache.http.client.methods.HttpGet;
import org.apache.http.impl.client.HttpClientBuilder;
import org.apache.http.util.EntityUtils;
import org.jsoup.Jsoup;
import org.jsoup.nodes.Document;
import org.jsoup.nodes.Element;
import org.jsoup.select.Elements;

import java.io.IOException;

public class AmazonCrawler {
  public static void main(String[] args) throws IOException {
    String url = "https://www.amazon.com/dp/B07BDR5PDW";
    HttpClient client = HttpClientBuilder.create().build();
    HttpGet request = new HttpGet(url);
    HttpResponse response = client.execute(request);

    // 如果请求成功，将网页内容解析为字符串
    if (response.getStatusLine().getStatusCode() == 200) {
      String content = EntityUtils.toString(response.getEntity());
      Document doc = Jsoup.parse(content);

      // 使用 CSS 选择器提取产品标题
      Element title = doc.select("span#productTitle").first();
      System.out.println("Title: " + title.text());

      // 使用 CSS 选择器提取价格
      Element price = doc.select("span#priceblock_ourprice").first();
      System.out.println("Price: " + price.text());
    }
  }
}