从多个txt文件中提取大量我想得到的数据 最后返回到表格中
时间: 2023-10-10 14:05:15 浏览: 62
电子表格中不同的两列里筛选出重复数据
3星 · 编辑精心推荐
你可以使用Python编程语言来处理这个任务。以下是一种可能的解决方案:
1. 首先,使用Python中的os模块中的函数来列出要处理的所有txt文件。例如,可以使用以下代码:
```python
import os
file_dir = "/path/to/txt/files"
file_list = os.listdir(file_dir)
```
这将返回一个包含文件名的列表,可以进一步遍历每个文件并提取数据。
2. 对于每个txt文件,使用Python中的open函数打开它,并使用readlines函数读取所有行。例如:
```python
with open(file_path) as f:
lines = f.readlines()
```
这将返回一个包含文件中所有行的列表。
3. 对于每个文件中的每一行,使用Python中的正则表达式来匹配你想要的数据。例如,如果你想要提取所有包含“关键字”的行,可以使用以下代码:
```python
import re
pattern = re.compile("关键字")
for line in lines:
if pattern.search(line):
# 处理匹配到的行
```
在处理匹配到的行时,可以使用Python中的字符串方法来提取你想要的数据,并将其添加到一个列表中。
4. 处理完所有文件后,使用Python中的pandas库来创建一个DataFrame对象,并将列表中的数据添加到其中。例如:
```python
import pandas as pd
df = pd.DataFrame(columns=["data"]) # 创建一个空的DataFrame对象
for data in data_list:
df = df.append({"data": data}, ignore_index=True) # 将数据添加到DataFrame对象中
```
5. 最后,使用pandas库将DataFrame对象输出到Excel文件中。例如:
```python
output_path = "/path/to/output/excel/file.xlsx"
writer = pd.ExcelWriter(output_path)
df.to_excel(writer, index=False)
writer.save()
```
这将在指定路径下创建一个Excel文件,并将DataFrame对象中的数据写入其中。
这只是一个简单的示例,你需要根据具体情况进行修改和扩展。
阅读全文