python xpath 获取 中文文字最多的 html
时间: 2023-05-24 12:03:31 浏览: 151
python-xpath获取html文档的部分内容
5星 · 资源好评率100%
节点的XPath表达式是什么?
A:可以使用以下XPath表达式获取中文文字最多的HTML节点:
```python
//*/text()[normalize-space(.)!=''][not(parent::script)][not(parent::style)][string-length(normalize-space(.)) > 20][contains(translate(., 'abcdefghijklmnopqrstuvwxyz', 'ABCDEFGHIJKLMNOPQRSTUVWXYZ'), .)][not(contains(., '图'))][not(contains(., '表'))][not(contains(., '框'))][not(contains(., '盒'))]
```
该表达式的含义是:
- `//*/text()` 选择所有节点中的文本节点。
- `[normalize-space(.)!='']` 过滤掉空白节点。
- `[not(parent::script)][not(parent::style)]` 过滤掉脚本和样式节点。
- `[string-length(normalize-space(.)) > 20]` 过滤掉长度小于等于20的文本节点。
- `[contains(translate(., 'abcdefghijklmnopqrstuvwxyz', 'ABCDEFGHIJKLMNOPQRSTUVWXYZ'), .)]` 过滤掉全是小写字母的文本节点。
- `[not(contains(., '图'))][not(contains(., '表'))][not(contains(., '框'))][not(contains(., '盒'))]` 过滤掉包含关键词“图”、“表”、“框”、“盒”的文本节点。
运行此XPath表达式,将返回中文文字最多的HTML节点。
阅读全文