写一个python脚本,遍历文件夹下的所有excel,读取excel表格中包含“缺失”二字的所有行
时间: 2024-05-13 12:16:36 浏览: 135
以下是一个示例代码,可以遍历指定文件夹下的所有 Excel 文件,读取包含“缺失”二字的行并输出到控制台。
```python
import os
import pandas as pd
# 遍历文件夹下的所有 Excel 文件
folder_path = "path/to/folder"
for filename in os.listdir(folder_path):
if filename.endswith(".xlsx"):
file_path = os.path.join(folder_path, filename)
df = pd.read_excel(file_path)
# 查找包含“缺失”二字的行并输出
missing_rows = df[df.apply(lambda row: "缺失" in str(row.values), axis=1)]
if not missing_rows.empty:
print(f"File: {filename}")
print(missing_rows)
```
需要注意的是,该代码使用了 `pandas` 库来读取 Excel 文件,因此需要先安装该库。可以使用以下命令进行安装:
```
pip install pandas
```
相关问题
写一个遍历annotation文件夹中所有xml标注文件,并读取bbox和class信息的python脚本
可以使用Python中的ElementTree库来处理XML文件。以下是一个示例脚本,可以遍历annotation文件夹中的所有XML标注文件,并提取bbox和class信息。
```python
import os
import xml.etree.ElementTree as ET
# 定义XML文件夹路径
xml_folder = '/path/to/annotation'
# 遍历XML文件夹中的所有文件
for file_name in os.listdir(xml_folder):
# 检查文件是否是XML文件
if file_name.endswith('.xml'):
# 打开XML文件
xml_path = os.path.join(xml_folder, file_name)
tree = ET.parse(xml_path)
root = tree.getroot()
# 遍历XML文件中的每个object元素
for obj in root.findall('object'):
# 提取bbox信息
bbox = obj.find('bndbox')
xmin = int(bbox.find('xmin').text)
ymin = int(bbox.find('ymin').text)
xmax = int(bbox.find('xmax').text)
ymax = int(bbox.find('ymax').text)
# 提取class信息
obj_class = obj.find('name').text
# 打印信息
print('File: {}, bbox: ({}, {}, {}, {}), class: {}'.format(file_name, xmin, ymin, xmax, ymax, obj_class))
```
在这个脚本中,我们首先定义了XML文件夹的路径,然后遍历这个文件夹中的所有文件。对于每个XML文件,我们使用ElementTree库打开文件并获取其根元素。然后,我们遍历XML文件中的每个object元素,并提取bbox和class信息。最后,我们打印信息。
用python写一个脚本,根据关键字实现遍历某文件夹下所有pdf文档,找到pdf文档中包含关键字的文件名称、页码
好的,可以使用Python的第三方库PyPDF2来实现读取PDF文件并提取文本内容。以下是一个示例脚本,可以根据关键字遍历指定文件夹下的所有PDF文件,查找包含关键字的页码:
```python
import os
import PyPDF2
# 定义要查找的文件夹路径和关键字
folder_path = '/path/to/folder'
search_keyword = 'keyword'
# 遍历文件夹下的所有PDF文件
for filename in os.listdir(folder_path):
if filename.endswith('.pdf'):
pdf_file = open(os.path.join(folder_path, filename), 'rb')
pdf_reader = PyPDF2.PdfFileReader(pdf_file)
# 遍历PDF文件中的每一页
for page_num in range(pdf_reader.getNumPages()):
page = pdf_reader.getPage(page_num)
# 提取当前页的文本内容
text = page.extractText()
# 判断当前页是否包含关键字
if search_keyword in text:
print(f'Found keyword "{search_keyword}" in file "{filename}", page {page_num+1}')
pdf_file.close()
```
其中,`os.listdir(folder_path)`会返回指定文件夹下的所有文件和文件夹名称,`if filename.endswith('.pdf')`会筛选出所有以`.pdf`结尾的文件。然后使用`PyPDF2.PdfFileReader`打开PDF文件,并通过`getNumPages()`获取PDF文件中的页数。接着遍历每一页,使用`getPage()`获取当前页的`Page`对象,并使用`extractText()`方法提取当前页的文本内容。最后判断当前页是否包含关键字,如果包含则打印出对应的文件名和页码。
阅读全文