python xpath 获取中文文字最多的 html

时间: 2023-05-24 12:03:31 浏览: 151

python-xpath获取html文档的部分内容

5星 · 资源好评率100%

有些时候我在们需要的用正则提取出html中某一个部分的文字内容，如图: 获取dd部分的html文档，我们要通过它的一个属性去确定他的位置才可以拿到他这个部分我们可以看到他的这个属性class=’row clearfix ‘，然后用xpath去获取到这部分: name = tree.xpath("//dd[@class='row clearfix ']") from lxml import html import requests url = 'http://navi.cnki.net/knavi/JournalDetail/GetArticleList?year=2018&issue=04 在Python中，当我们需要从HTML文档中提取特定内容时，XPath是一种非常强大的工具。XPath（XML Path Language）是一种在XML文档中查找信息的语言，也可以应用于HTML文档。在本例中，我们将探讨如何使用Python的`lxml`库来通过XPath获取HTML文档中的特定部分。我们导入必要的库： ```python from lxml import html import requests ``` 接着，我们通过`requests.get()`函数发送HTTP请求获取HTML内容： ```python url = 'http://navi.cnki.net/knavi/JournalDetail/GetArticleList?year=2018&issue=04&pykm=DZXU&pageIdx=0&pcode=CJFD' res = requests.get(url) ``` `requests.get()`返回一个`Response`对象，我们可以通过`.text`属性获取HTML文本。接下来，我们使用`html.fromstring()`方法将HTML文本转换为`ElementTree`对象，便于解析： ```python tree = html.fromstring(res.text) ``` 为了找到HTML中特定的`dd`元素，我们使用XPath表达式。在本例中，我们关注`class`属性等于`'row clearfix'`的`dd`元素： ```python name = tree.xpath("//dd[@class='row clearfix']") ``` `name`现在是一个元素列表，因为我们可能找到多个匹配的`dd`元素。如果我们确信只有一个匹配项，可以使用索引访问第一个元素： ```python name1 = html.tostring(name[0]) ``` `html.tostring()`将`Element`对象转换为字符串，但默认情况下输出的是字节（bytes）类型的HTML。为了能够打印或处理这些内容，我们需要将其解码为字符串： ```python name1 = name1.decode() ``` 然而，解码后的字符串可能会包含HTML转义字符，例如`$#26080;`代表中文字符。要将这些转义序列转换为实际的字符，我们可以使用`HTMLParser`： ```python from html.parser import HTMLParser class MyHTMLParser(HTMLParser): def handle_data(self, data): print(data) parser = MyHTMLParser() parser.feed(name1) ``` 或者，如果你只想简单地解码HTML实体，可以使用`HTMLParser.unescape()`： ```python name2 = HTMLParser().unescape(name1) ``` 现在，`name2`应该包含了解码后的文本，你可以正常处理和打印它。总结一下，通过Python的`lxml`库和XPath，我们可以高效地从HTML文档中提取所需内容。在处理HTML转义序列时，可以使用`HTMLParser`类进行解码，确保正确显示中文和其他特殊字符。在实际应用中，这种方法常用于网络爬虫、数据分析以及自动化测试等领域。了解并熟练掌握这些技能，将有助于提升你在处理HTML文档时的效率和准确性。

节点的XPath表达式是什么？ A：可以使用以下XPath表达式获取中文文字最多的HTML节点： ```python //*/text()[normalize-space(.)!=''][not(parent::script)][not(parent::style)][string-length(normalize-space(.)) > 20][contains(translate(., 'abcdefghijklmnopqrstuvwxyz', 'ABCDEFGHIJKLMNOPQRSTUVWXYZ'), .)][not(contains(., '图'))][not(contains(., '表'))][not(contains(., '框'))][not(contains(., '盒'))] ``` 该表达式的含义是： - `//*/text()` 选择所有节点中的文本节点。 - `[normalize-space(.)!='']` 过滤掉空白节点。 - `[not(parent::script)][not(parent::style)]` 过滤掉脚本和样式节点。 - `[string-length(normalize-space(.)) > 20]` 过滤掉长度小于等于20的文本节点。 - `[contains(translate(., 'abcdefghijklmnopqrstuvwxyz', 'ABCDEFGHIJKLMNOPQRSTUVWXYZ'), .)]` 过滤掉全是小写字母的文本节点。 - `[not(contains(., '图'))][not(contains(., '表'))][not(contains(., '框'))][not(contains(., '盒'))]` 过滤掉包含关键词“图”、“表”、“框”、“盒”的文本节点。运行此XPath表达式，将返回中文文字最多的HTML节点。

阅读全文

python xpath 获取 中文文字最多的 html

相关推荐

python的xpath得到含html标签的内容

Python中利用xpath解析HTML的方法

python xpath 获取 中文文字最多个html标签 其中不能包括超过 3个超链接

python xpath 获取 中文文字最多个div div中不嵌套其他div

python xpath 获取 中文文字最多个div div中不嵌套其他div 并输出 dvi html

XPath表达式获取中文文字最多的HTML节点 并输出节点名称

python xpath获取页面注释的方法

python xpath获取keywords

python xpath获取全文

python xpath获取图片

python xpath获取文本内容

python xpath获取a标签href

python xpath获取select的数据

python爬虫使用xpath获取文字失败

python xpath爬虫获取图片

xpath 匹配html 中 中文最多的html

python xpath 获取 中文文字最多的那个html 标签

python xpath 获取 中文文字最多个div

python xpath 获取 中文文字最多的 html 节点 并且输出节点名称

最新推荐

python的xpath获取div标签内html内容,实现innerhtml功能的方法

python-xpath获取html文档的部分内容

对Xpath 获取子标签下所有文本的方法详解

Python使用xpath实现图片爬取

python爬虫之xpath的基本使用详解

Java集合ArrayList实现字符串管理及效果展示

管理建模和仿真的文件

【MATLAB信号处理优化】：算法实现与问题解决的实战指南

在西门子S120驱动系统中，更换SMI20编码器时应如何确保数据的正确备份和配置？

实现2D3D相机拾取射线的关键技术

python xpath 获取中文文字最多的 html

python xpath 获取中文文字最多个html标签其中不能包括超过 3个超链接

python xpath 获取中文文字最多个div div中不嵌套其他div

python xpath 获取中文文字最多个div div中不嵌套其他div 并输出 dvi html

XPath表达式获取中文文字最多的HTML节点并输出节点名称

xpath 匹配html 中中文最多的html

python xpath 获取中文文字最多的那个html 标签

python xpath 获取中文文字最多个div

python xpath 获取中文文字最多的 html 节点并且输出节点名称