selenium1.python读取txt文本中的编号(00001,00002,00003…)2.在网页表格编码列中遍历相应信息3.同时在类型列中筛选重点和非重点信息4.提取时间列、单位列、类型列、总数列中对应行的信息5.将提取的数据分别根据类型列的中重点和非重点写入EXCEL
时间: 2024-12-06 12:26:34 浏览: 15
selenium读取txt,xls,csv.docx
在Python中,你可以使用Selenium库配合BeautifulSoup或者pandas等数据处理库来完成这个任务。以下是步骤概述:
1. **读取TXT文件中的编号**:
使用`open()`函数读取txt文件,并通过字符串操作或正则表达式解析编号。例如:
```python
with open('numbers.txt', 'r') as f:
lines = f.readlines()
numbers = [line.strip() for line in lines]
```
2. **网页表单遍历**:
使用Selenium模拟浏览器操作打开网页并定位表格元素,然后使用如`find_elements_by_xpath`或`find_elements_by_css_selector`来获取所有单元格。
3. **筛选类型列**:
通过元素属性(如`text`)判断重点和非重点信息,比如包含特定关键词的单元格被视为重点。
4. **提取数据**:
对每个单元格内容做进一步处理,提取时间、单位、类型和总数信息,可以使用`BeautifulSoup`解析HTML,或者直接从`td`标签中提取值。
5. **写入Excel**:
使用pandas库创建DataFrame存储数据,然后使用`to_excel`函数按照类型列的不同值(重点和非重点)写入两个不同的工作表:
```python
import pandas as pd
df重点 = pd.DataFrame(...) # 重点数据
df非重点 = pd.DataFrame(...) # 非重点数据
df重点.to_excel('output重点关注.xlsx', index=False)
df非重点.to_excel('output一般关注.xlsx', index=False)
```
这里假设`df重点`和`df非重点`已正确填充了数据。
阅读全文