首页改成获取这个网站的数据https://www.yoojia.com/rank/1-0-0-0-0-0.ht

改成获取这个网站的数据https://www.yoojia.com/rank/1-0-0-0-0-0.ht

时间: 2024-03-18 19:45:16 浏览: 201

好的，以下是修改后的代码，可以获取 https://www.yoojia.com/rank/1-0-0-0-0-0.ht 网站的数据： ``` import requests from bs4 import BeautifulSoup import pandas as pd #定义链接 url="https://www.yoojia.com/rank/1-0-0-0-0-0.ht" #定义请求头 headers = { 'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/101.0.4951.54 Safari/537.36' } #获取网页源码 html = requests.get(url=url,headers=headers) #将网页源码装换为txt main_page = html.text #使用bs4对网页源码进行解析 main_page = BeautifulSoup(main_page,"html.parser") #定位table table = main_page.find("table", attrs={"class": "table"}) #获取所有table里头的tr标签 trs = table.find_all("tr") #定义数据容器 data = [] #遍历所有 tr标签 for i in trs[1:]: #定义零时容器 list = [] #定位tr里头的所有td标签 tds = i.find_all("td") #遍历所有td标签 for td in tds: #将td里头的文本添加到零时容器 list.append(td.text.strip()) #将零时容器内的数据添加值data里头 data.append(list) #定义储存标题 columns=["排名","品牌","车型","销量","市场占有率","同比增长"] #使用pandas 储存 #定义个dataframe df = pd.DataFrame(columns=columns, data=data) #使用csv格式储存 df.to_csv("./Data.csv", encoding='utf-8', index=False) #保存完毕 print("保存完毕") ``` 注意，此网站并没有反爬虫机制，因此不需要添加反爬虫策略。

阅读全文