景和千城：利用Selenium构建爬虫抓取大众点评商家信息

需积分: 0 6 浏览量更新于2024-08-04 收藏 887KB DOCX 举报

在"景和千城—爬虫1"中，本文详细介绍了如何进行爬虫开发，特别是在IT行业中针对大众、美团等大型商业网站的数据抓取。首先，准备工作是关键，提到使用Python 3.5版本（虽然2.7也可行）作为主要编程语言，以及Selenium 2（Seleniumwebdriver）进行网页交互，这有助于克服网站的反爬虫策略。推荐使用Chrome或Firefox浏览器及其对应驱动程序，通过pip安装必要的库，如Selenium和相关依赖。技术框架方面，文章选择Selenium结合Python自动化框架，因为Selenium能模拟浏览器行为，有效避免了urllibrequest可能遇到的反爬虫机制，适应实际项目需求。框架设计简洁实用，易于开发和部署，流程包括四级循环，通过模拟用户的点击动作，逐步筛选和抓取数据。具体爬取过程中，由于目标网站采用分页和动态加载，需要深入四级循环，包括分类和地区的选择，每一步都可能导致页面布局和数据变化，带来复杂性和异常处理的挑战。作者建议从分类开始，利用列表形式进行第一层循环，以减少不确定性带来的问题。然而，这需要开发者具备良好的异常处理能力和对网站结构的深入理解，以确保数据的完整性和准确性。这篇文章着重强调了在大数据获取场景下，如何运用Python爬虫技术，尤其是Selenium框架，进行高效且适应性强的网站数据抓取，同时也突出了在这个过程中可能遇到的技术挑战和应对策略。对于从事IT爬虫开发或对数据抓取感兴趣的读者，这是一篇颇具实用价值的文章。

景和千城—爬虫

一．工作准备

爬虫是为公司以后的用户行为分析，商铺针对性建议等提供一定

的决策支持的重要工作，所以爬虫的好坏关系非常大。

工欲善其事，必先利其器，相关技术也得准备齐：

Python 下载，版本：python3.5（2.7 也可以）。

Selenium 下载，版本：Selenium 2 （Selenium webdriver）可

以通过 pip install selenium 命令来安装

浏览器下载， Chrome 或者 Firefox 都可以以及相应浏览器

的 driver（放在相关浏览器安装目录下），网上下载即可

其它相关包等，通过 pip insatall 方法来安装

二．技术框架

主要爬取对象是大众，美团等具有大量商家信息的网站，同时这

些网站采用了很多有效的反爬策略来防止爬虫，所以爬取这些网站有

一定的难度和风险。

进过多方的考虑和对比，最终采用的框架是 selenium + python

自动化框架（如果有更好的后期会换）。

采用该框架的最主要的一点是因为 selenium 是可以很方便的实

现网页的模拟浏览器点击操作，从而可以有效的规避很多针对主流的

urllib request 而采取的针对策略，并且更符合我们爬取项目的实际情

况。

该框架部署简单实用，易开发。

框架流程如图：

下载后可阅读完整内容，剩余7页未读，立即下载

maXZero

粉丝: 31
资源: 303

景和千城：利用Selenium构建爬虫抓取大众点评商家信息

SALTE-audio-renderer: 空间音频听力测试与渲染工具

"景观成本优化及标准化案例分析

线性时变系统MT-滤波器反推自适应控制研究

ansible-role-customize-gnome：定制GNOME桌面的Ansible角色。 它从软件包或zip文件中安装字体和GNOME扩展，将诸如桌面背​​景和GNOME shell调整之类的文件复制到主机，并修改用户设置

智能建筑：智能建筑在中国的现景和发展.docx

youphonic：在线音乐机器界面，用于建立和共享音景和音乐作品

苏教版四年级下册语文《春江晓景和江南春》课件PPT

用AI解锁制造业： 企业如何发现应用场 景和应对挑战.pdf

浙江省临海市杜桥中学高中语文 第四专题 8-1江南的冬景课件 苏教版必修1

sun-moon-interior

最新资源

ansible-role-customize-gnome：定制GNOME桌面的Ansible角色。它从软件包或zip文件中安装字体和GNOME扩展，将诸如桌面背景和GNOME shell调整之类的文件复制到主机，并修改用户设置

用AI解锁制造业：企业如何发现应用场景和应对挑战.pdf

浙江省临海市杜桥中学高中语文第四专题 8-1江南的冬景课件苏教版必修1