爬取淘宝Python数据分析图书并保存到Excel中的代码
时间: 2024-05-19 11:10:44 浏览: 97
以下是使用Python爬取淘宝数据分析图书并保存到Excel中的代码:
```python
import requests
from bs4 import BeautifulSoup
import openpyxl
# 获取页面内容
def get_html(url):
try:
r = requests.get(url)
r.raise_for_status()
r.encoding = r.apparent_encoding
return r.text
except:
return ""
# 解析页面内容
def parse_html(html):
soup = BeautifulSoup(html, "html.parser")
book_list = []
for li in soup.find_all("li", class_="item"):
book = {}
book["title"] = li.find("div", class_="title").get_text().strip()
book["price"] = li.find("div", class_="price").get_text().strip()
book_list.append(book)
return book_list
# 保存数据到Excel
def save_to_excel(book_list, file_name):
wb = openpyxl.Workbook()
ws = wb.active
ws.title = "Data Analysis Books"
ws.append(["书名", "价格"])
for book in book_list:
ws.append([book["title"], book["price"]])
wb.save(file_name)
def main():
url = "https://s.taobao.com/search?q=%E6%95%B0%E6%8D%AE%E5%88%86%E6%9E%90%E4%B9%A6&imgfile=&js=1&stats_click=search_radio_all%3A1&initiative_id=staobaoz_20201206&ie=utf8"
html = get_html(url)
book_list = parse_html(html)
save_to_excel(book_list, "data_analysis_books.xlsx")
if __name__ == "__main__":
main()
```
在代码中,我们使用了requests库获取淘宝搜索页面的HTML内容,使用BeautifulSoup库解析HTML内容,提取出书名和价格信息,并保存到一个列表中。最后,我们使用openpyxl库将数据保存到Excel文件中。运行代码后,将会生成一个名为"data_analysis_books.xlsx"的Excel文件,其中包含了爬取到的淘宝数据分析图书的书名和价格信息。
阅读全文