爬取:https://www.mafengwo.cn/travel-scenic-spot/mafengwo/84711.html的数据代码
时间: 2023-06-21 20:22:36 浏览: 194
python 爬取马蜂窝景点翻页文字评论的实现
好的,以下是一个使用Python编写的爬虫代码,可以爬取该网页的相关数据:
```python
import requests
from bs4 import BeautifulSoup
# 设置请求头信息
headers = {
'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.3'
}
# 定义爬取网页数据的函数
def get_data():
# 指定要爬取的网页链接
url = 'https://www.mafengwo.cn/travel-scenic-spot/mafengwo/84711.html'
# 发送HTTP请求
response = requests.get(url, headers=headers)
# 解析HTML文档
soup = BeautifulSoup(response.text, 'html.parser')
# 获取景点名称
spot_name = soup.find('h1', class_='t-title').text
# 获取景点评分
score = soup.find('span', class_='score').text
# 获取景点地址
spot_address = soup.find('span', class_='item-address').text.strip()
# 获取景点介绍
spot_intro = soup.find('div', class_='summary').text.strip()
# 获取景点图片链接
image_url = soup.find('img', class_='img-responsive')['src']
# 输出景点信息
print('景点名称:', spot_name)
print('评分:', score)
print('地址:', spot_address)
print('介绍:', spot_intro)
print('图片链接:', image_url)
# 主函数
if __name__ == '__main__':
# 调用爬取网页数据的函数
get_data()
```
在代码中,我们首先使用`requests`库发送HTTP请求,然后使用`BeautifulSoup`库解析HTML文档。通过分析网页的HTML结构,我们可以使用`find`方法获取到需要的景点名称、评分、地址、介绍和图片链接等数据。最后,我们输出这些数据到控制台中。当然,您可以将这些数据存储到文件或数据库中,以便后续分析。
阅读全文