给出用python爬取https://www.kaggle.com/datasets/sudhanshu2198/oil-spill-detection数据的代码
时间: 2023-08-15 18:06:59 浏览: 138
使用Python的石油资讯网络爬虫
### 回答1:
下面是一个使用 Python 爬取 https://www.kaggle.com/datasets/sudhanshu2198/oil-spill-detection 的代码示例:
```
import requests
url = 'https://www.kaggle.com/datasets/sudhanshu2198/oil-spill-detection'
response = requests.get(url)
with open('oil-spill-detection.csv', 'wb') as f:
f.write(response.content)
```
这段代码使用了 Python 中 requests 库来发送 GET 请求,并将返回的数据保存在当前目录下的 oil-spill-detection.csv 文件中。
需要注意的是,如果这个数据集需要登录才能下载的话,需要额外的操作来登录才能爬取到数据。
### 回答2:
以下是使用Python爬取https://www.kaggle.com/datasets/sudhanshu2198/oil-spill-detection数据的示例代码:
```python
import requests
from bs4 import BeautifulSoup
# 请求页面
url = 'https://www.kaggle.com/datasets/sudhanshu2198/oil-spill-detection'
response = requests.get(url)
# 解析页面内容
soup = BeautifulSoup(response.text, 'html.parser')
# 查找下载链接
download_link = soup.find('div', class_='download-button-container') \
.find('a', class_='site-button')['href']
# 下载数据文件
headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.3'}
data_response = requests.get(download_link, headers=headers)
# 保存数据文件
with open('oil_spill_detection.zip', 'wb') as file:
file.write(data_response.content)
print('数据爬取完成并保存成功!')
```
这段代码首先使用`requests`库发送HTTP请求,获取网页的HTML内容。然后,使用` BeautifulSoup`库解析HTML内容,查找下载链接的位置。接着,使用`requests`库再次发送HTTP请求,下载数据文件。最后,将下载的数据文件保存到本地。
阅读全文