亚马逊爬虫java代码示例
时间: 2023-03-02 16:14:44 浏览: 221
Amazon.rar_amazon 爬_java爬虫
5星 · 资源好评率100%
以下是一个 Java 代码示例,该爬虫使用了 Apache HttpClient 库来发送 HTTP 请求并解析页面内容。
```
import org.apache.http.HttpResponse;
import org.apache.http.client.HttpClient;
import org.apache.http.client.methods.HttpGet;
import org.apache.http.impl.client.HttpClientBuilder;
import org.apache.http.util.EntityUtils;
import org.jsoup.Jsoup;
import org.jsoup.nodes.Document;
import org.jsoup.nodes.Element;
import org.jsoup.select.Elements;
import java.io.IOException;
public class AmazonCrawler {
public static void main(String[] args) throws IOException {
String url = "https://www.amazon.com/dp/B07BDR5PDW";
HttpClient client = HttpClientBuilder.create().build();
HttpGet request = new HttpGet(url);
HttpResponse response = client.execute(request);
// 如果请求成功,将网页内容解析为字符串
if (response.getStatusLine().getStatusCode() == 200) {
String content = EntityUtils.toString(response.getEntity());
Document doc = Jsoup.parse(content);
// 使用 CSS 选择器提取产品标题
Element title = doc.select("span#productTitle").first();
System.out.println("Title: " + title.text());
// 使用 CSS 选择器提取价格
Element price = doc.select("span#priceblock_ourprice").first();
System.out.println("Price: " + price.text());
}
}
}
```
注意:亚马逊可能会阻止爬虫访问其网站,因此请确保您在使用此代码时遵循所有适用的法律和政策。
阅读全文