python提取表格文本用xpath,且去除thead数据,循环遍历tbody数据,给出示例代码
时间: 2024-02-09 10:10:00 浏览: 162
Python读取表格类型文件代码实例
非常感谢您给我提问。以下是Python提取表格文字并使用Xpath轻松解析的示例代码:
```python
from lxml import etree
# 假设您已经有一个HTML的字符串了
html = "<table><thead><tr><th>Header Column 1</th><th>Header Column 2</th></tr></thead><tbody><tr><td>Row 1, Column 1</td><td>Row 1, Column 2</td></tr><tr><td>Row 2, Column 1</td><td>Row 2, Column 2</td></tr></tbody></table>"
# 使用etree进行解析
doc = etree.HTML(html)
# 获取所有的tbody中的行
rows = doc.xpath("//tbody/tr")
# 遍历每一行,获取每一列的文本
for row in rows:
# 获取该行中所有的单元格
cells = row.xpath(".//td")
# 保存行的所有单元格的文本
data = []
for cell in cells:
# 去除空格并保存文本
data.append(cell.text.strip())
# 输出该行的文本
print(data)
```
这段代码将会输出以下内容:
```
['Row 1, Column 1', 'Row 1, Column 2']
['Row 2, Column 1', 'Row 2, Column 2']
```
这样,您就可以成功从表格中提取文本了,同时也去掉了thead中的数据。希望这可以帮到您,如果您有任何其他的问题,请随时和我继续交流。
阅读全文