公司信息爬虫教程:如何使用company-crawler爬取天眼查与企查查数据
5星 · 超过95%的资源 需积分: 50 79 浏览量
更新于2024-11-22
9
收藏 17KB ZIP 举报
资源摘要信息:"company-crawler:天眼查爬虫&企查查爬虫,指定关键字爬取公司信息"
关键词:天眼查、企查查、爬虫、公司信息、数据源配置、Mysql、代理、Python3、关键字设置
一、爬虫项目概述
1. 项目名称:company-crawler
2. 功能:该项目是为天眼查与企查查网站定制的爬虫程序,用于根据指定关键字爬取公司信息。
3. 应用场景:企业信息查询、市场分析、数据挖掘等。
二、爬虫技术要素
1. Python3:使用Python编程语言,其在网络爬虫领域有着广泛的使用基础。
2. 爬虫框架:根据描述,爬虫可能使用了某些Python爬虫框架或库来实现,但具体框架未在描述中提及。
3. 数据库配置:通过配置Mysql数据库,爬虫将爬取的数据存储在数据库中,便于后续的管理和查询。数据库配置信息包括数据库地址、端口、数据库名称、用户名和密码。
4. 关键字设置:通过设置关键字列表,爬虫可根据这些关键字来过滤和爬取相关信息。
三、数据源配置详解
1. 数据库配置示例:MysqlConfig字典配置了名为develop的数据源,包含数据库地址、端口、数据库名称、用户名和密码等信息。
2. 数据结构生成:通过执行db/data.sql脚本,根据预定义的数据库模式生成所需的数据结构,为存储爬取数据做准备。
四、代理配置
1. 全局代理控制:通过设置GLOBAL_PROXY为True,可以启用全局代理功能,适用于需要通过代理IP来绕过目标网站限制的场景。
2. 代理池配置:通过PROXY_POOL_URL设置代理池地址,爬虫可以从该地址获取可用的代理IP列表。
五、关键字设置与爬取
1. 关键字配置:通过设置变量keys,定义了爬虫需要搜索的关键字列表。
2. 载入关键字:使用crawler对象的load_keys方法,将关键字列表载入爬虫中,以便后续爬取。
六、标签解析
1. proxy:代表代理配置,用于爬虫绕过网站IP限制。
2. python3:指定该爬虫是用Python 3版本编写的。
3. ua:User Agent,用于设置请求的用户代理字符串,可能在爬虫中被用于模拟浏览器行为。
4. qichacha & tianyancha:分别指天眼查和企查查,是爬虫的目标数据源。
5. web-spider:指该爬虫为网络爬虫工具。
6. Python:编程语言,指明了爬虫的开发语言。
七、文件名称列表解析
***pany-crawler-master:这可能是该项目的根目录文件夹名称,表明这是一个包含爬虫功能的主程序包。
总结:company-crawler项目是一个专门针对天眼查与企查查网站开发的爬虫程序,它允许用户指定关键字来爬取公司信息。该爬虫使用了Python 3进行开发,并配置了Mysql数据库来存储爬取的数据。此外,该爬虫支持代理设置,可以使用代理池中的IP进行数据爬取。爬虫通过配置文件设定关键字,并将结果加载至数据源中。该项目的开发涉及到数据源配置、代理配置、关键字设置以及Python网络编程等IT知识。
2019-11-27 上传
2024-02-27 上传
2024-11-12 上传
2024-11-12 上传
2023-09-09 上传
2024-11-21 上传
2024-11-12 上传
2023-09-01 上传
2023-05-12 上传
歪头羊
- 粉丝: 42
- 资源: 4651
最新资源
- LUA5.33简化版支持库1.1版(lua5.fne)-易语言
- frontendman.github.io:Web开发
- FirstRepo:这是我们的第一个存储库
- apache-ivy-2-5-0.rar
- 手机脚本执行器安装包.zip
- 记录爬虫学习总结,对拉勾招聘信息、豆瓣电影短评、知乎用户画像等数据进行网络爬取实战练习,并基于爬取数据利用Pytho.zip
- dkpro-argumentation-minimal:DKPro Argumentation Mining - 带有用于演示目的的类型系统的“最小”库
- 离心泵水动力学噪声参数测控系统的设计与分析.rar
- jChat1毕业设计—(包含完整源码可运行)..zip
- FacEssential:FacEssential是PMMP的核心,它收集创建派系服务器所需的所有插件。 它是由Clouds#0667从头开始创建的
- 记录 Python 学习之路,Python3 简明教程入门,Python 爬虫相关实战和代码.zip
- 软件设计师真题16-18年.rar
- 指针操作支持库2.0版(PTlib.fne)-易语言
- estourando_baloes_JS:使用Java脚本创建游戏
- nn_api:在Windows上使用NVidia CUDA的神经网络API
- generate-mybatis-project:java持久层的mybatis实现代码生成工具