改成获取这个网站的数据https://www.yoojia.com/rank/1-0-0-0-0-0.ht
时间: 2024-03-18 19:45:16 浏览: 201
好的,以下是修改后的代码,可以获取 https://www.yoojia.com/rank/1-0-0-0-0-0.ht 网站的数据:
```
import requests
from bs4 import BeautifulSoup
import pandas as pd
#定义链接
url="https://www.yoojia.com/rank/1-0-0-0-0-0.ht"
#定义请求头
headers = {
'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/101.0.4951.54 Safari/537.36'
}
#获取网页源码
html = requests.get(url=url,headers=headers)
#将网页源码装换为txt
main_page = html.text
#使用bs4对网页源码进行解析
main_page = BeautifulSoup(main_page,"html.parser")
#定位table
table = main_page.find("table", attrs={"class": "table"})
#获取所有table里头的tr标签
trs = table.find_all("tr")
#定义数据容器
data = []
#遍历所有 tr标签
for i in trs[1:]:
#定义零时容器
list = []
#定位tr里头的所有td标签
tds = i.find_all("td")
#遍历所有td标签
for td in tds:
#将td里头的文本添加到零时容器
list.append(td.text.strip())
#将零时容器内的数据添加值data里头
data.append(list)
#定义储存标题
columns=["排名","品牌","车型","销量","市场占有率","同比增长"]
#使用pandas 储存
#定义个dataframe
df = pd.DataFrame(columns=columns, data=data)
#使用csv格式储存
df.to_csv("./Data.csv", encoding='utf-8', index=False)
#保存完毕
print("保存完毕")
```
注意,此网站并没有反爬虫机制,因此不需要添加反爬虫策略。
阅读全文