景点名称、评分、地址 爬取到的数据保存在文本文件中
时间: 2023-12-06 12:03:14 浏览: 71
好的,我将为您编写一个简单的爬虫来爬取携程网上中国旅游景点的信息,并将数据保存到文本文件中。以下是示例代码:
```python
import requests
from bs4 import BeautifulSoup
def scrape_ctrip():
url = 'https://you.ctrip.com/countrysightlist/china110000/p1.html'
headers = {
'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/91.0.4472.124 Safari/537.36'
}
response = requests.get(url, headers=headers)
soup = BeautifulSoup(response.text, 'html.parser')
results = []
items = soup.find_all('div', class_='list_mod2')
for item in items:
name = item.find('h3').text.strip()
rating = item.find('span', class_='score').text.strip()
address = item.find('p', class_='address color999').text.strip()
result = {
'名称': name,
'评分': rating,
'地址': address
}
results.append(result)
return results
def save_to_file(results):
with open('ctrip_scraped_data.txt', 'w', encoding='utf-8') as file:
for result in results:
file.write(f"名称: {result['名称']}\n")
file.write(f"评分: {result['评分']}\n")
file.write(f"地址: {result['地址']}\n")
file.write("\n")
if __name__ == '__main__':
data = scrape_ctrip()
save_to_file(data)
```
请确保您已经安装了`requests`和`beautifulsoup4`这两个库,您可以通过运行`pip install requests beautifulsoup4`来安装它们。
这段代码使用了`requests`库发送HTTP请求,并使用`BeautifulSoup`库解析HTML页面。它会从页面中提取出每个景点的名称、评分和地址,并将结果保存到名为`ctrip_scraped_data.txt`的文本文件中。
请注意,根据网站的反爬机制,可能需要添加更多的处理逻辑来模拟浏览器行为或处理反爬限制。此示例代码仅供参考,您可能需要根据实际情况进行适当的调整。
希望这可以帮助到您!如果您有任何其他问题,请随时提问。
阅读全文