import pandas as pd for i in range(4): url = "http://college.gaokao.com/areapoint/p{}/".format(i) print(url) df=pd.DataFrame() df=df._append(pd.read_html(url)) df.to_csv("Gaokao.csv",mode="a")完善代码爬取下页数据
时间: 2024-03-07 19:51:40 浏览: 113
TAIEX数据:可从https://www.twse.com.tw获取Json原始数据
这段代码的作用是爬取高考网站各地区录取分数线数据,并将数据保存到Gaokao.csv文件中。如果想要爬取更多页面的数据,可以修改range(4)中的数字来控制循环次数。
不过注意到这段代码有一些错误,需要进行修正。首先,需要在代码的第一行之前加上一个空格,即:
```
import pandas as pd
```
其次,在循环体内部,应该使用df = df.append()方法来将数据添加到DataFrame中,而不是使用df._append()方法。所以应该将这一行代码:
```
df=df._append(pd.read_html(url))
```
修改为:
```
df = df.append(pd.read_html(url)[0])
```
最后,需要在to_csv()方法中加上参数header=False,避免在每次写入新数据时都写入一次表头。所以应该将这一行代码:
```
df.to_csv("Gaokao.csv",mode="a")
```
修改为:
```
df.to_csv("Gaokao.csv", mode="a", header=False)
```
修改后的完整代码如下:
```
import pandas as pd
for i in range(4):
url = "http://college.gaokao.com/areapoint/p{}/".format(i)
print(url)
df = pd.DataFrame()
df = df.append(pd.read_html(url)[0])
df.to_csv("Gaokao.csv", mode="a", header=False)
```
希望这可以帮到你。
阅读全文