爬取携程多页游记的代码
时间: 2024-05-02 07:13:31 浏览: 157
使用爬虫技术获取携程网指定城市所有热门游记信息
4星 · 用户满意度95%
以下是使用Python爬取携程多页游记的代码示例:
```python
import requests
from bs4 import BeautifulSoup
# 设置请求头,模拟浏览器访问
headers = {
'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.3'}
# 定义一个函数,用于获取每一页的游记信息
def get_travel_notes(url):
# 发送请求
response = requests.get(url, headers=headers)
# 解析HTML
soup = BeautifulSoup(response.text, 'html.parser')
# 获取游记列表
notes_list = soup.find_all('div', class_='ctd_main_body')
# 遍历游记列表,输出游记标题和内容
for note in notes_list:
title = note.find('a', class_='ellipsis').text.strip()
content = note.find('div', class_='ctd_main_body').text.strip()
print('标题:', title)
print('内容:', content)
print('------------------------')
# 定义一个函数,用于获取多页游记信息
def get_multi_pages_notes(start_url, page_num):
# 循环获取每一页的游记信息
for i in range(1, page_num+1):
url = start_url + '&pageIndex=' + str(i)
get_travel_notes(url)
# 测试代码
if __name__ == '__main__':
start_url = 'https://you.ctrip.com/travels/china110000/t3-p'
page_num = 3
get_multi_pages_notes(start_url, page_num)
```
阅读全文