import requests from bs4 import BeautifulSoup import csv # 发送HTTP请求获取网页内容 url = "https://item.jd.com/100016034394.html" # 替换为目标商品评价页面的URL response = requests.get(url) html = response.text # 使用BeautifulSoup解析网页内容 soup = BeautifulSoup(html, "html.parser") # 获取所有评价信息 comments = soup.find_all("div", class_="comment-item") # 创建CSV文件并写入数据 filename = "商品评价.csv" with open(filename, "w", encoding="utf-8-sig", newline="") as csvfile: writer = csv.writer(csvfile) writer.writerow(["用户", "评分", "评价内容"]) # 写入表头 # 写入每条评价的数据 for comment in comments: user = comment.find("div", class_="user-info").find("span").text.strip() rating = comment.find("div", class_="comment-star").find("i")["class"][1].split("-")[1] content = comment.find("div", class_="comment-con").find("p").text.strip() writer.writerow([user, rating, content]) print(f"成功爬取并保存为 {filename}") 这个代码是可以打在Jupyter里直接进行爬虫爬取的吗
时间: 2023-12-05 08:45:19 浏览: 50
TAIEX数据:可从https://www.twse.com.tw获取Json原始数据
是的,这段代码可以在Jupyter Notebook中运行,并进行网页爬取和数据保存操作。你可以将代码片段粘贴到Jupyter Notebook的代码单元格中,然后运行该单元格即可。
确保你已经安装了所需的库(`requests`和`beautifulsoup4`)并导入它们,然后将目标网页的URL替换为你要爬取的实际网页URL。运行代码后,将会以CSV文件的形式保存评价数据。
请确保在运行代码之前已经安装了相应的库,可以使用以下命令进行安装:
```python
!pip install requests beautifulsoup4
```
注意:在使用Jupyter Notebook进行爬虫时,请遵守网站的爬虫政策,并尊重网站的隐私政策和使用条款。确保你对目标网站的爬取操作是合法且符合伦理的。
阅读全文