用python的lxml、pandas、selenium编写一段代码。以https://www.sciencedirect.com/journal/the-lancet为初始界面，等待10秒，用selenium点击该页面上的链接（class="anchor js-volume volume-issue-text anchor-default"），跳转后等待10秒，用selenium点击该页面上的链接（class="switch-check switch-small js-previews-switch"），等待10秒，获取该页面上所有文章的标题、摘要、作者。建立excel表格，将结果导入excel表格

时间: 2023-03-19 16:22:39 浏览: 89

以下是用python的lxml、pandas、selenium编写的一段代码：from selenium import webdriver from lxml import etree from pandas import DataFrame import time# 初始化浏览器 browser = webdriver.Chrome() # 打开初始界面 browser.get('https://www.sciencedirect.com/journal/the-lancet') time.sleep(10) # 用selenium点击链接 link1 = browser.find_element_by_css_selector('.anchor.js-volume.volume-issue-text.anchor-default') link1.click() time.sleep(10) # 用selenium点击链接 link2 = browser.find_element_by_css_selector('.switch-check.switch-small.js-previews-switch') link2.click() time.sleep(10) # 获取网页源代码 html = browser.page_source # 关闭浏览器 browser.close() # 使用lxml解析网页源代码 selector = etree.HTML(html) # 获取文章标题 title = selector.xpath('//h2[@class="ArticleTitle"]/text()') # 获取摘要 summary = selector.xpath('//p[@class="Para"]/text()') # 获取作者 authors = selector.xpath('//span[@class="text-s"]/text()') # 将结果存入excel表格 dataframe = DataFrame({'文章标题':title, '摘要':summary, '作者':authors}) dataframe.to_excel('the-lancet.xls')

相关推荐

pythonlibs网站的网页

python-lxml-3.2.1-4.el7.x86_64.rpm

nasdaq_finance：使用Python和LXML编写的Nasdaq.com Web Scraper提取基于公司代码的可用摘要报价

参考上述代码，爬取下面网页的数据： https://www.5iai.com/#/jobList

这个没有被提取出来 "https://www.example.com"

爬取https://www.iqiyi.com/ranks1/home内各个节目的信息

使用python 多线程爬取 https://www.ppomppu.co.kr/zboard/zboard.php?id=freeboard&hotlist_flag=999 网站

使用xpath抓取https://www.tsinghua.edu.cn/信息标题

如何爬取https://www.cec.org.cn/dmzs/index.html这个网站的煤价数据

python中使用xpath方法找到url为https://hf.ke.com/xiaoqu/baohe/的页面的所有小区的href

尝试爬取该网页的数据：https://www.5iai.com/#/jobList

可以用python写这个网页的代码吗？http://www.cnsoftbei.com/plus/view.php?aid=824

https://www.chzc.edu.cn/info/1024/66328.htm 使用xpath解析，将该网址下的标题文本获取并输出

使用lxml的etree爬取http://www.kanunu8.com/book3/6879/每一章节的内容

import requests from lxml import etree url="https://www.80142.com/txt/82776.html" html=requests.get(url) print(html)出现not get

python 爬取美元汇率 http://www.boc.cn/sourcedb/whpj/

使用python 多线程爬取 https://www.ppomppu.co.kr/zboard/zboard.php?id=freeboard&hotlist_flag=999 网站 9999页 使用10个线程

最新推荐

基于C/C++开发的单目控制机械臂的上位机程序+视觉识别和关节角反解+源码（高分优秀项目）

setuptools-68.2.1-py3-none-any.whl

springboot 学生信息管理系统.zip

zigbee-cluster-library-specification

管理建模和仿真的文件

实现实时数据湖架构：Kafka与Hive集成

用 Python 画一个可以动的爱心

JSBSim Reference Manual

"互动学习：行动中的多样性与论文攻读经历"

实现实时监控告警系统：Kafka与Grafana整合

使用python 多线程爬取 https://www.ppomppu.co.kr/zboard/zboard.php?id=freeboard&hotlist_flag=999 网站 9999页使用10个线程