python lxml处理表格
时间: 2023-02-05 15:24:55 浏览: 278
python 使用xpath/lxml爬取网页表格并存CSV
lxml是一个用于处理XML和HTML的Python库,提供了方便的API来解析和生成XML和HTML文档。 它还支持XPath,这是一种用于在XML文档中查找信息的语言。
要使用lxml处理表格,首先需要使用lxml解析HTML或XML文档,然后使用XPath查找表格元素。
例如,假设您有一个HTML文档,其中包含一个名为"table"的表格:
```html
<html>
<body>
<table>
<tr>
<td>Row 1, Cell 1</td>
<td>Row 1, Cell 2</td>
</tr>
<tr>
<td>Row 2, Cell 1</td>
<td>Row 2, Cell 2</td>
</tr>
</table>
</body>
</html>
```
您可以使用以下代码解析HTML文档并查找表格元素:
```python
from lxml import html
# Parse the HTML document
doc = html.fromstring("<html><body><table><tr><td>Row 1, Cell 1</td><td>Row 1, Cell 2</td></tr><tr><td>Row 2, Cell 1</td><td>Row 2, Cell 2</td></tr></table></body></html>")
# Find the table element
table = doc.xpath("//table")[0]
# Find all row elements
rows = table.xpath(".//tr")
# Iterate through the rows and print the text of each cell
for row in rows:
cells = row.xpath(".//td")
for cell in cells:
print(cell.text)
```
这将输出以下内容:
```
Row 1, Cell 1
Row 1, Cell 2
Row 2, Cell 1
Row 2, Cell 2
```
您还可以使用XPath查找特定的行或单元格,并使用lxml的API更改表格的内容。
有关使用lxml处理XML和HTML的更多信息,请参阅lxml文档:https://l
阅读全文