Selenium 爱企查
时间: 2024-12-31 11:32:42 浏览: 11
### 使用 Selenium 实现爱企查网站的自动化交互
为了实现对爱企查网站的数据抓取或自动化交互,Selenium 提供了一种有效的方法来模拟真实用户的浏览器活动。下面是一个简单的 Python 示例,展示如何配置环境并执行基本的操作。
#### 安装依赖库
首先需要安装 `selenium` 库以及其他可能需要用到的相关包:
```bash
pip install selenium requests
```
对于 Java 项目,则可以在 Maven 的 pom.xml 文件中加入如下依赖[^3]:
```xml
<dependency>
<groupId>org.seleniumhq.selenium</groupId>
<artifactId>selenium-java</artifactId>
<version>(具体版本号)</version>
</dependency>
```
#### 设置 WebDriver 和浏览器驱动
确保下载对应浏览器(如 Chrome, Firefox)最新版的 WebDriver 并将其路径添加至系统的 PATH 环境变量中。这里以 Chrome 浏览器为例说明:
```python
from selenium import webdriver
from selenium.webdriver.chrome.service import Service as ChromeService
from webdriver_manager.chrome import ChromeDriverManager
driver = webdriver.Chrome(service=ChromeService(ChromeDriverManager().install()))
```
这段代码会自动管理 ChromeDriver 的安装和更新过程[^4]。
#### 访问目标页面
接下来定义要访问的目标 URL,并启动浏览器加载此网址:
```python
url = 'https://aiqicha.baidu.com/'
driver.get(url)
```
#### 执行特定任务
假设想要搜索某个企业名称,在定位到相应的输入框之后就可以发送关键词了;同样地,如果存在验证码等问题则需额外处理。此处仅提供一个简化版的例子用于演示目的:
```python
search_box = driver.find_element('id', 'companyName') # 假设这是搜索框ID
submit_button = driver.find_element('css selector', '.btn-search') # 搜索按钮的选择器
search_box.send_keys('腾讯公司')
submit_button.click()
```
以上脚本实现了向指定 ID 的 HTML 元素内键入文字以及触发点击事件的功能[^2]。
#### 数据提取
当页面返回预期的结果列表后,可以通过 XPath 或 CSS Selectors 来获取所需的信息片段。例如,收集所有企业的基本信息链接:
```python
import time
time.sleep(5) # 给予足够的时间让页面完全渲染完毕
elements = driver.find_elements('xpath', '//a[@class="link-click"]')
for element in elements[:10]: # 获取前十个结果作为样本
href = element.get_attribute('href')
print(href)
driver.quit() # 关闭浏览器实例
```
上述代码展示了等待几秒钟使 JavaScript 动态内容有时间完成加载的重要性,同时也示范了怎样遍历一组相似结构下的超链接标签并打印其属性值[^1]。
阅读全文