公司信息爬虫教程：如何使用company-crawler爬取天眼查与企查查数据

5星 · 超过95%的资源需积分: 50 79 浏览量更新于2024-11-22 9 收藏 17KB ZIP 举报

资源摘要信息:"company-crawler:天眼查爬虫&企查查爬虫，指定关键字爬取公司信息" 关键词：天眼查、企查查、爬虫、公司信息、数据源配置、Mysql、代理、Python3、关键字设置一、爬虫项目概述 1. 项目名称：company-crawler 2. 功能：该项目是为天眼查与企查查网站定制的爬虫程序，用于根据指定关键字爬取公司信息。 3. 应用场景：企业信息查询、市场分析、数据挖掘等。二、爬虫技术要素 1. Python3：使用Python编程语言，其在网络爬虫领域有着广泛的使用基础。 2. 爬虫框架：根据描述，爬虫可能使用了某些Python爬虫框架或库来实现，但具体框架未在描述中提及。 3. 数据库配置：通过配置Mysql数据库，爬虫将爬取的数据存储在数据库中，便于后续的管理和查询。数据库配置信息包括数据库地址、端口、数据库名称、用户名和密码。 4. 关键字设置：通过设置关键字列表，爬虫可根据这些关键字来过滤和爬取相关信息。三、数据源配置详解 1. 数据库配置示例：MysqlConfig字典配置了名为develop的数据源，包含数据库地址、端口、数据库名称、用户名和密码等信息。 2. 数据结构生成：通过执行db/data.sql脚本，根据预定义的数据库模式生成所需的数据结构，为存储爬取数据做准备。四、代理配置 1. 全局代理控制：通过设置GLOBAL_PROXY为True，可以启用全局代理功能，适用于需要通过代理IP来绕过目标网站限制的场景。 2. 代理池配置：通过PROXY_POOL_URL设置代理池地址，爬虫可以从该地址获取可用的代理IP列表。五、关键字设置与爬取 1. 关键字配置：通过设置变量keys，定义了爬虫需要搜索的关键字列表。 2. 载入关键字：使用crawler对象的load_keys方法，将关键字列表载入爬虫中，以便后续爬取。六、标签解析 1. proxy：代表代理配置，用于爬虫绕过网站IP限制。 2. python3：指定该爬虫是用Python 3版本编写的。 3. ua：User Agent，用于设置请求的用户代理字符串，可能在爬虫中被用于模拟浏览器行为。 4. qichacha & tianyancha：分别指天眼查和企查查，是爬虫的目标数据源。 5. web-spider：指该爬虫为网络爬虫工具。 6. Python：编程语言，指明了爬虫的开发语言。七、文件名称列表解析 ***pany-crawler-master：这可能是该项目的根目录文件夹名称，表明这是一个包含爬虫功能的主程序包。总结：company-crawler项目是一个专门针对天眼查与企查查网站开发的爬虫程序，它允许用户指定关键字来爬取公司信息。该爬虫使用了Python 3进行开发，并配置了Mysql数据库来存储爬取的数据。此外，该爬虫支持代理设置，可以使用代理池中的IP进行数据爬取。爬虫通过配置文件设定关键字，并将结果加载至数据源中。该项目的开发涉及到数据源配置、代理配置、关键字设置以及Python网络编程等IT知识。

收起资源包目录

company-crawler:天眼查爬虫&企查查爬虫，指定关键字爬取公司信息（24个子文件）

log.py 762B

date.py 348B

wechat_auth.py 544B

data.sql 4KB

requirements.txt 60B

client.py 1KB

httpclient.py 917B

__init__.py 126B

crawler.py 573B

tianyancha.py 317B

qichacha.py 346B

__init__.py 697B

settings.py 416B

LICENSE 1KB

manager.py 2KB

__init__.py 2KB

client.py 4KB

models.py 2KB

README.md 944B

.gitignore 1KB

__init__.py 126B

mysql_connector.py 3KB

crawler.py 1KB

__init__.py 950B

共 24 条

歪头羊

粉丝: 42
资源: 4651

公司信息爬虫教程：如何使用company-crawler爬取天眼查与企查查数据

企查查信息爬取代码.7z

基于selenium模拟天眼查登录并爬取企业注册等信息的爬虫

天眼查 Python爬虫项目源码.zip

如何在Python中安装并使用开源爬虫库inspire-crawler进行基本的网页数据抓取？

如何安装并使用Python开源爬虫库inspire-crawler来实现基本的网页数据抓取？

company-crawler

基于scrapy框架输入关键字爬取指定网站

如何在Python环境中安装inspire-crawler库，并使用它进行基本的网页数据抓取？

随机切换User-Agent：

最新资源