python爬取巨潮资讯网
时间: 2023-10-10 08:04:27 浏览: 90
Python巨潮网爬虫
由于巨潮资讯网的网页内容是动态加载的,因此我们需要使用selenium和webdriver来模拟浏览器的行为。
首先,我们需要安装selenium和webdriver:
```
pip install selenium
```
接着,下载对应浏览器的webdriver,比如Chrome浏览器的webdriver可以在这里下载:https://sites.google.com/a/chromium.org/chromedriver/downloads
下载后,将webdriver的路径添加到环境变量中,或者直接将webdriver放在python的安装目录下。
然后,我们就可以编写代码来爬取巨潮资讯网了。
以下是一个简单的例子,爬取巨潮资讯网的公告信息:
```python
from selenium import webdriver
from selenium.webdriver.common.keys import Keys
from selenium.webdriver.common.action_chains import ActionChains
import time
# 创建webdriver对象
driver = webdriver.Chrome()
# 打开巨潮资讯网
driver.get('http://www.cninfo.com.cn/cninfo-new/announcement/show')
# 等待页面加载完成
time.sleep(3)
# 找到搜索框并输入关键词
search_input = driver.find_element_by_class_name('search-input')
search_input.send_keys('年报')
# 模拟点击搜索按钮
search_button = driver.find_element_by_class_name('search-btn')
ActionChains(driver).move_to_element(search_button).click().perform()
# 等待搜索结果页面加载完成
time.sleep(3)
# 获取搜索结果列表
result_list = driver.find_elements_by_xpath('//div[@class="search-result-container"]//ul[@class="r-list-container"]/li')
# 遍历搜索结果列表并输出公告标题和链接
for item in result_list:
title = item.text
link = item.find_element_by_tag_name('a').get_attribute('href')
print(title, link)
# 关闭浏览器
driver.quit()
```
以上代码会打开巨潮资讯网的公告搜索页面,输入关键词“年报”,模拟点击搜索按钮,等待搜索结果页面加载完成,然后遍历搜索结果列表并输出公告标题和链接,最后关闭浏览器。
阅读全文