写一个爬取企查查公司名称,曾用名,营业状态的python代码
时间: 2024-04-12 14:34:01 浏览: 133
基于Python的企查查爬虫,爬取完整的公司数据+源代码+文档说明
5星 · 资源好评率100%
要爬取企查查(www.qichacha.com)上的公司名称、曾用名和营业状态,您可以使用Python的requests和BeautifulSoup库。以下是一个示例代码:
```python
import requests
from bs4 import BeautifulSoup
def crawl_company_info(company_name):
url = f"https://www.qichacha.com/search?key={company_name}"
headers = {
"User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/91.0.4472.124 Safari/537.36"
}
response = requests.get(url, headers=headers)
if response.status_code == 200:
soup = BeautifulSoup(response.text, 'html.parser')
# 获取公司名称
company_name = soup.find("a", class_="ma_h1").text.strip()
print("公司名称:", company_name)
# 获取曾用名
former_names = soup.find_all("span", class_="ma_label")
former_names = [name.text.strip() for name in former_names]
print("曾用名:", former_names)
# 获取营业状态
status = soup.find("span", class_="status").text.strip()
print("营业状态:", status)
else:
print("请求失败")
# 调用函数示例
crawl_company_info("腾讯科技(深圳)有限公司")
```
在上述代码中,`crawl_company_info()`函数接受一个参数`company_name`作为要搜索的公司名称。代码构建了请求URL,并发送GET请求获取企查查网页的HTML响应。然后,使用BeautifulSoup解析HTML响应并提取公司名称、曾用名和营业状态的信息。
请注意,为了避免被网站反爬虫机制检测,代码中添加了一个伪装的User-Agent头部信息。
这只是一个基本示例,实际应用中可能需要处理更多的异常情况和数据清洗。另外,请确保遵守网站的使用规则,并尊重网站的爬取频率限制。
阅读全文