去哪儿网旅游景点数据爬虫

时间: 2025-02-15 20:15:11 浏览: 45

编写爬取去哪儿网旅游景点数据的 Python 爬虫

为了有效地从去哪儿网获取旅游景点的相关信息,可以采用 requestsBeautifulSoup 库来进行网页内容解析。考虑到目标网站可能存在的反爬机制,建议设置合理的请求间隔并模拟浏览器行为。

准备工作

安装必要的库可以通过 pip 完成:

pip install requests beautifulsoup4 lxml

请求页面与解析HTML结构

使用 requests.get() 方法发送 HTTP GET 请求到指定 URL 地址,并利用 BeautifulSoup 解析返回的内容。对于静态页面而言,这一步骤足以获得所需的信息[^1]。

提取具体字段

根据 HTML 文档中的标签属性定位各个元素位置,提取出包括但不限于以下几项的关键信息:

  • 景点名称
  • 图片链接
  • 英文名字
  • 排名情况
  • 描述文字
  • 经纬度坐标

下面是一个简单的例子展示如何实现上述功能:

import requests
from bs4 import BeautifulSoup
import json
import time


def fetch_page(url):
    headers = {
        'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64)',
    }
    
    response = requests.get(url, headers=headers)
    if response.status_code != 200:
        raise Exception('Failed to load page {}'.format(url))
        
    soup = BeautifulSoup(response.text, "lxml")
    return soup


def parse_sights(soup):
    sights_list = []
    
    items = soup.find_all('li', class_='item')
    for item in items:
        sight_info = {}
        
        try:
            name_tag = item.select_one('.name a')
            img_url = item.img['src']
            en_name = item.span.string.strip()
            rank = int(item.em.string.replace('#',''))
            desc = ''.join([p.text for p in item.find('div',class_="desc").find_all('p')])
            
            location_data = item.script.string.split('=')[1].strip().rstrip(';').replace("'",'"')
            loc_dict = json.loads(location_data)

            lng,lat=loc_dict["lng"],loc_dict["lat"]

            sight_info.update({
                '中文名': name_tag.text,
                '图片URL':img_url ,
                '英文名':en_name,
                '排名':rank,
                '简介':desc,
                '经度':lng,
                '维度': lat})
                
            sights_list.append(sight_info)
        except AttributeError as e:
            continue
            
    return sights_list
    

if __name__ == '__main__':
    base_url = 'https://www.qunar.com/sight/list.htm?keyword=%E9%83%A8%E7%BD%AA&region=&from=mpl_search_suggest&page={}'
    all_sights = []

    for i in range(1, 12): # 假设共有11页
        url = base_url.format(i)
        print(f'Processing {url}')
        html_doc = fetch_page(url)
        parsed_result = parse_sights(html_doc)
        all_sights.extend(parsed_result)
        time.sleep(2)  # 防止被封IP
        
print(json.dumps(all_sights[:], ensure_ascii=False))

这段脚本会遍历多页的结果集,每一页都会调用一次 fetch_page() 来获取完整的 HTML 内容;接着由 parse_sights() 负责处理单个列表条目内的各项细节。最后将所有的记录保存在一个 JSON 数组里输出显示出来[^3]。

向AI提问 loading 发送消息图标

相关推荐

大家在看

recommend-type

silvaco中文学习资料

silvaco中文资料。 希望对大家有帮助。。。。。。
recommend-type

AES128(CBC或者ECB)源码

AES128(CBC或者ECB)源码,在C语言环境下运行。
recommend-type

EMC VNX 5300使用安装

目录 1.通过IE登录储存 3 2.VNX5300管理界面 3 3.创建Raid Group 4 4.Raid Group 中储存LUN 7 5.注册服务器 9 6.创建 Storge Group 11
recommend-type

华为MA5671光猫使用 华为MA5671补全shell 101版本可以补全shell,安装后自动补全,亲测好用,需要的可以下载

华为MA5671光猫使用 华为MA5671补全shell 101版本可以补全shell,安装后自动补全,亲测好用,需要的可以下载,企业光猫稳定性还是可以
recommend-type

视频转换芯片 TP9950 iic 驱动代码

TP9950 芯片是一款功能丰富的视频解码芯片,具有以下特点和功能: 高清视频解码:支持多种高清模拟视频格式解码,如支持高清传输视频接口(HD-TVI)视频,还能兼容 CVI、AHD、TVI 和 CVBS 等格式,最高支持 1 路 1080p@30fps 的视频输入 。 多通道输入与输出: 支持 4 路视频接入,并可通过一路输出。 可以通过 CSI 接口输出,也可以通过并行的 BT656 接口输出。 图像信号处理:对一致性和性能进行了大量的数字信号处理,所有控制回路均可编程,以实现最大的灵活性。所有像素数据均根据 SMPTE-296M 和 SMPTE-274M 标准进行线锁定采样,并且具有可编程的图像控制功能,以达到最佳的视频质量 。 双向数据通信:与兼容的编码器或集成的 ISP 与 HD-TVI 编码器和主机控制器一起工作时,支持在同一电缆上进行双向数据通信 。 集成 MIPI CSI-2 发射机:符合 MIPI 的视频数据传输标准,可方便地与其他符合 MIPI 标准的设备进行连接和通信 。 TP9950 芯片主要应用于需要进行高清视频传输和处理的领域,例如汽车电子(如车载监控、行车

最新推荐

recommend-type

python基于大数据的旅游景点推荐系统.pdf

在此系统中,它可能被用来抓取各大旅游网站(如去哪儿旅游、马蜂窝旅游、携程旅游)上的景点信息、评论、价格等,以构建和更新数据库。 5. **Element-UI**: 这是基于Vue.js的组件库,用于构建用户界面。Element-UI...
recommend-type

Linux系统管理中常见命令集锦及其应用技巧提升运维效率

内容概要:本文档提供了 Linux 平台上最为常用的各类命令集合,涵盖基本文件及目录操作如ls、cd;文件查看与编辑操作如cat、vi;用户与权限相关指令如passwd、sudo;进程操作如ps、kill;还有针对磁盘、存储、网络设置以及系统管理和日志检查等功能的命令详解,例如 df、mount 对于磁盘管理;ifconfig 和 curl 则用于网络配置;crontab 处理计划作业调度等。同时简要介绍不同发行版本之间的差异(APT vs YUM)。这使得用户能够更加方便快捷地熟悉 Linux 下的各项基本功。 适合人群:对于需要掌握基本 Linux 技能的新手开发者或者系统管理员来说是非常有价值的参考资料。 使用场景及目标:无论是服务器搭建、自动化部署,还是日常开发调试环境准备,掌握文中所述的基础命令都将是必不可少的知识。 其他说明:此外还介绍了少量高级特性,比如nohup支持无终端守护进程运行、dmesg可用于获取硬件自检时产生的消息等内容供进阶者参考学习。
recommend-type

Delphi 12.3 控件之Administrative-divisions-of-China-2.7.0.zip

Administrative-divisions-of-China-2.7.0.zip
recommend-type

网站前端设计-jquery微型相册插件Micro Image Gallery.zip

网站精美前端设计,使用jQuery+CSS开发,源码适用于参考学习使用。希望对你学习和开发有所帮助
recommend-type

毕业设计源码-jspSSM332的图书店仓库进销存管理系统-项目实战.zip

本项目是基于JSP+SSM框架开发的图书店仓库进销存管理系统,旨在实现书店从采购、库存到销售的全流程数字化管理。系统采用B/S架构,后端以Spring为核心框架整合SpringMVC和MyBatis,前端通过JSP动态页面实现交互,数据库采用MySQL存储业务数据5。
recommend-type

Flash AS3整合XML/ASP/JSON全站源码解析

从给定的文件信息中,我们可以提取出多个IT相关的知识点进行详细说明,包括Flash AS3、XML、ASP和JSON技术及其在整站开发中的应用。 首先,Flash AS3(ActionScript 3.0)是一种编程语言,主要用于Adobe Flash Player和Adobe AIR平台。Flash AS3支持面向对象的编程,允许开发复杂的应用程序。AS3是Flash平台上的主要编程语言,它与Flash的组件、框架和其他媒体类型如图形、音频、视频等紧密集成。在描述中提及的“falsh as3”多次重复,这表明源码中使用了Flash AS3来开发某些功能。 接着,XML(Extensible Markup Language)是一种标记语言,用于存储和传输数据。它不是用来显示数据的语言,而是用来描述数据的语言。XML的语法允许定义自己的标签,用于构建具有清晰结构的数据。在整站开发中,XML可以用于存储配置信息、状态数据、业务逻辑数据等。 ASP(Active Server Pages)是一种服务器端脚本环境,可以用来创建和运行动态网页或web应用。ASP代码在服务器上执行,然后向客户端浏览器发送标准的HTML页面。ASP技术允许开发者使用VBScript或JavaScript等脚本语言来编写服务器端的脚本。ASP通常与ADO(ActiveX Data Objects)结合,用于数据库操作。描述中提到的“asp”,指的应该是这种服务器端脚本技术。 JSON(JavaScript Object Notation)是一种轻量级的数据交换格式,易于人阅读和编写,同时也易于机器解析和生成。JSON基于JavaScript的一个子集,但JSON是完全独立于语言的文本格式,它与JSON.com相关,语言无关。在Web服务和API中,JSON经常作为数据格式用于前后端的数据交换。描述中提到的“json”说明源码可能涉及将数据以JSON格式进行传输和处理。 在提及的文件名“哈尔滨鸭宝宝羽绒服饰有限公司”中,虽然它看起来像是一个公司名称,并非技术术语,但可以推测,这个名称可能是源码中包含的某个项目的名称或者是源码文件夹名称。 从以上信息中可以看出,所提及的整站源码可能是一个使用Flash AS3作为前端交互设计,结合ASP作为后端服务逻辑,以及XML和JSON作为数据交换格式来构建的企业级网站。这样的架构允许网站具有动态的内容展示和数据处理能力,同时能够与数据库进行交互,并通过JSON格式与外部应用程序进行通信。 总结来看,这份整站源码涉及的技术点较多,包括但不限于: - **Flash AS3的应用**:用于设计和实现复杂的交互式前端界面,实现动画、游戏、商业应用程序等。 - **XML的作用**:在项目中可能用作配置文件存储,或者是后端服务与前端交互过程中传输的结构化数据格式。 - **ASP的运用**:作为动态网站的后端解决方案,处理服务器端逻辑,如用户认证、数据库交互等。 - **JSON的使用**:作为前后端通信的数据交换格式,便于前端页面和后端服务之间进行数据的发送和接收。 - **整站开发的综合应用**:涉及前端设计与后端逻辑的整合,以及跨语言的数据处理能力。 以上就是对给定文件信息中提到的知识点的详细解读。
recommend-type

【ASD系统管理新手必读】:快速掌握ASD操作基础与上手技巧

# 摘要 本文全面介绍ASD系统的概念、配置、管理和安全策略。首先概述了ASD系统的基础和管理基础,然后详细阐述了系统配置、操作以及功能模块的日常管理。接着,重点分析了安全策略的实施,包括系统安全机制、安全事件的响应处理以及安全策略的定制优化。此外,本文还探讨了故障诊断与性能优化的方法,提供了自动化与脚本编程的策略,并详细讨论了系统集成与扩展应用的案例和实践。通过这些内容,本文旨在为ASD系统的开发者和管理员提供一个详尽的指导手册,以实现系统的高效管理、
recommend-type

./bin/hdfs dfs -ls -R -h /user/hadoop

### 查看 HDFS 目录结构及文件大小 `./bin/hdfs dfs -ls -R -h /user/hadoop` 是用于递归列出指定路径下的所有目录和文件及其详细信息的命令。以下是该命令的具体说明: #### 参数解析 - `-ls`: 列出指定路径下的内容。 - `-R`: 表示递归操作,即不仅显示当前目录的内容,还会深入到子目录中逐一展示。 - `-h`: 将文件大小以人类易读的方式呈现(例如 KB、MB、GB),而不是简单的字节数。 此命令会输出每一层目录中的文件名以及它们的相关属性,包括权限、复制因子、拥有者、组、文件大小、修改时间等[^1]。 #### 输出示例 假
recommend-type

安卓平台上仿制苹果风格的开关按钮设计

在Android开发中,仿制其他平台如iPhone的UI控件是一种常见的需求,特别是在需要保持应用风格一致性时。标题中提到的“android开发仿iphone开关按钮”所指的知识点主要涉及两个方面:一是Android的开关按钮控件(Switch),二是如何使其外观和行为模仿iOS平台上的类似控件。 首先,让我们从Android原生的Switch控件开始。Switch是Android提供的一种UI控件,用于提供一种简单的二态选择,通常用于表示开/关状态。它由一个滑块和两个不同颜色的轨道组成,滑块的左右两侧分别代表不同的状态。Switch在Android开发中一般用于设置选项的开启与关闭。 接着,要使Android的Switch控件外观和行为模仿iOS平台的开关按钮,需要关注以下几点: 1. 外观设计:iOS的开关按钮外观简洁,通常具有圆角矩形的滑块和轨道,并且滑块的高光效果、尺寸和颜色风格与原生Android Switch有所不同。在Android上,可以通过自定义布局来模仿这些视觉细节,例如使用图片作为滑块,以及调整轨道的颜色和形状等。 2. 动画效果:iOS开关按钮在切换状态时具有平滑的动画效果,这些动画在Android平台上需要通过编程实现。开发者可以使用Android的属性动画(Property Animation)API来创建类似的动画效果,或者使用第三方库来简化开发过程。 3. 反馈机制:iOS的交互设计中通常会包含触觉反馈(Haptic Feedback),比如当用户操作开关时,设备会通过震动给予反馈。在Android设备上,虽然不是所有设备都支持触觉反馈,但开发者可以通过振动API(Vibrator API)添加类似的功能,增强用户体验。 4. 用户体验:iOS的交互元素通常在视觉和交互上都有较高的质量和一致性。在Android上仿制时,应该注重用户的交互体验,比如滑动的流畅性、按钮的响应速度以及是否支持快速连续切换等。 现在,来看一下如何在Android中实际实现这样的仿制控件。这里将会使用到自定义View的概念。开发者需要创建一个继承自View或其子类的自定义控件,并重写相应的测量和绘制方法(比如`onDraw`方法)来自定义外观。还可以通过状态监听来模拟iOS的交互效果,比如监听触摸事件(`onTouch`)来处理滑块的移动,并通过回调函数(`setOnCheckedChangeListener`)来响应状态变化。 在实际开发过程中,一个有效的办法是使用图形编辑软件设计好开关按钮的各个状态下的图片资源,然后在自定义View的`onDraw`方法中根据控件的状态来绘制不同的图片。同时,通过监听触摸事件来实现滑块的拖动效果。 总结起来,创建一个在Android平台上外观和行为都与iOS相似的开关按钮,需要开发者具备以下知识点: - Android自定义View的使用和原理 - Android UI布局和绘图方法,包括使用`Canvas`类 - 触摸事件处理和状态监听 - 图片资源的使用和优化 - 动画效果的创建和实现 - 可选的,对设备震动反馈功能的支持 - 对目标平台交互设计的理解和模仿 通过上述知识点的学习和应用,开发者便能创建出既符合Android风格又具有iOS特色的开关按钮控件。这种控件既满足了跨平台的UI一致性,同时也为Android用户提供熟悉的交互体验。
recommend-type

Magma按键连接部署大揭秘:案例分析与最佳实践

# 摘要 Magma按键连接技术作为一种创新的连接方式,通过其核心功能及优势,在不同应用场景下展现出了显著的应用价值。本文首先介绍了Magma按键连接的基本概念、工作原理、网络结构以及配置要求。其次,探讨了其性能优化的可能性,并提供了实践部署的具体步骤、网络配置方法和故障诊断流程。案例研究部分详细分析了在小型和大型网络环境下Magma按键连接的部署情况,展示了从实施到结果评估的全过程。最后,文章
手机看
程序员都在用的中文IT技术交流社区

程序员都在用的中文IT技术交流社区

专业的中文 IT 技术社区,与千万技术人共成长

专业的中文 IT 技术社区,与千万技术人共成长

关注【CSDN】视频号,行业资讯、技术分享精彩不断,直播好礼送不停!

关注【CSDN】视频号,行业资讯、技术分享精彩不断,直播好礼送不停!

客服 返回
顶部