用python的requests、lxml、pandas、selenium编写一段代码。 以https://www.sciencedirect.com/journal/the-lancet为初始界面,等待10秒,用selenium点击该页面上的链接(class="anchor js-volume volume-issue-text anchor-default"),跳转后等待10秒,用selenium点击该页面上的链接(class="switch-check switch-small js-previews-switch"),等待10秒,获取该页面上文章的标题、摘要、作者。建立excel表格,将结果导入excel表格
时间: 2023-03-20 12:01:55 浏览: 111
import requests
from lxml import etree
import pandas as pd
from selenium import webdriverurl = 'https://www.sciencedirect.com/journal/the-lancet'driver = webdriver.Chrome()
driver.get(url)# 等待10秒
driver.implicitly_wait(10)# 用selenium点击该页面上的链接(class="anchor js-volume volume-issue-text anchor-default"),跳转后等待10秒
link = driver.find_element_by_css_selector('a.anchor.js-volume.volume-issue-text.anchor-default')
link.click()
driver.implicitly_wait(10)# 用selenium点击该页面上的链接(class="switch-check switch-small js-previews-switch"),等待10秒
link = driver.find_element_by_css_selector('span.switch-check.switch-small.js-previews-switch')
link.click()
driver.implicitly_wait(10)# 获取该页面上文章的标题、摘要、作者
html = etree.HTML(driver.page_source)
titles = html.xpath('//h2[@class="title"]/a/@title')
abstracts = html.xpath('//div[@class="Para"]/p/text()')
authors = html.xpath('//p[@class="author"]//span/a/text()')# 建立excel表格,将结果导入excel表格
df = pd.DataFrame({'title': titles, 'abstract': abstracts, 'author': authors})
df.to_excel('result.xlsx', index=False)
阅读全文