import os from bs4 import BeautifulSoup import re import csv import pandas as pd # 指定文件夹路径 folder_path = "C:/Users/test/Desktop/DIDItest" # 正则表达式模式 pattern = r'<body>(.?)<\/body>' # 创建CSV文件并写入表头 # CSV文件路径 csv_file = 'path/to/your/csv/file.csv' csv_file = "output.csv" # 遍历文件夹中的所有文件 for root, dirs, files in os.walk(folder_path): for file in files: # 读取html文件 file_path = os.path.join(root, file) with open(file_path, "r", encoding="utf-8-sig") as f: html_code = f.read() # 创建BeautifulSoup对象 soup = BeautifulSoup(html_code, 'html.parser') # 使用正则表达式匹配<body>标签内的数据 body_data = re.findall(pattern, html_code, re.DOTALL) # 剔除和() body_data = body_data[0].replace("", "").replace("()", "") # # 使用正则表达式提取talk_id、时间、发送者ID和接收者ID matches2 = re.findall(r'(?:中发言|发送)\s(.?)\s(?:音频 :|图片 :)?(?:\[([^\]]+)\])?', body_data) for match in matches2: # 提取链接地址 file_text = match[1] matches = re.findall(r'"([^"]*)"', file_text) if matches: file_name = matches[0] else: file_name = "No matches found." # print(file_name) # 替换字符 file_name = file_name.replace('No matches found.','') # 将提取的数据加载到DataFrame中 df_extracted = pd.DataFrame(file_name) # 读取原有的CSV文件 df_original = pd.read_csv(csv_file) print("---导入完成-----")

时间: 2024-02-14 20:30:09 浏览: 101

python常用库（带源码、详细解释、效果图！！！pandas、Matplotlib、爬虫相关的request库和bs4等。）

Python是一种广泛使用的高级编程语言，它以其可读性强、语法简洁和强大的库支持而受到开发者的青睐。在Python编程实践中，会涉及到各种第三方库，它们极大地丰富了Python的功能，尤其是数据分析、可视化和网络爬虫等领域。本知识点将详细介绍几个在Python中常用的库——pandas、Matplotlib、requests以及BeautifulSoup，并提供相关的源码示例和解释。 ### Pandas库 Pandas是Python中进行数据处理和分析的重要库。它提供了快速、灵活和表达能力强的数据结构，目的是使"关系"或"标签"数据的使用既简单又直观。主要数据结构是`DataFrame`，可以看作是二维的表格数据结构，以及一维的`Series`。在数据生成方面，Pandas可以轻松创建数据集，包括随机生成数据或从已有数据中构建。 ```python import pandas as pd import numpy as np # 创建一个Series对象 s = pd.Series([1, 3, 6, np.nan, 4, 1]) print(s) # 创建一个日期范围，并创建一个DataFrame dates = pd.date_range('***', periods=6) df = pd.DataFrame(np.random.randn(6, 4), index=dates, columns=['A', 'B', 'C', 'D']) print(df) ``` ### 数据选择 Pandas提供了多种方式来选择数据集中的子集。 - 使用标签选择数据：通过`.loc`属性可以基于标签进行数据选择。 - 使用位置选择数据：通过`.iloc`属性可以基于位置（整数索引）进行数据选择。 ```python # 使用标签选择数据 print(df.loc['2016-01-02']) # 选择特定的行 print(df.loc[:, ['A', 'B']]) # 选择特定的列 # 使用位置选择数据 print(df.iloc[3]) # 选择第4行 print(df.iloc[3, 1]) # 选择第4行第2列 ``` ### Matplotlib库 Matplotlib是一个用于创建静态、动态和交互式可视化的Python库，适用于Python以及它的一些标准数学扩展。使用Matplotlib可以生成各种图表。 ```python import matplotlib.pyplot as plt # 创建图形对象 fig = plt.figure() # 创建一个轴对象 ax = fig.add_subplot(1, 1, 1) # 绘制散点图 ax.scatter([1, 2, 3], [4, 5, 6]) # 显示图形 plt.show() ``` ### 爬虫库爬虫是网络数据采集的重要工具，Python中有多个库可用于爬虫任务。 #### requests库 requests是Python进行HTTP请求的库，它允许轻松地发送HTTP/1.1请求。 ```python import requests # 发送GET请求 response = requests.get('***') print(response.text) ``` #### BeautifulSoup库 BeautifulSoup是一个用于解析HTML和XML文档的库，能够解析复杂的XML结构，提供简单的方法来导航、搜索和修改解析树。 ```python from bs4 import BeautifulSoup import requests # 发送请求获取网页内容 response = requests.get('***') soup = BeautifulSoup(response.content, 'html.parser') # 打印网页的title标签内容 print(soup.title.text) ``` ### 正则表达式和格式化输出在处理文本数据时，正则表达式是一种强大的工具，用于执行复杂的字符串匹配和操作。Python提供了内置的`re`模块支持正则表达式。 ```python import re # 使用正则表达式匹配字符串 pattern = ***pile(r'\d+') match = pattern.search('The answer is 42') if match: print(match.group()) ``` Python还提供了字符串格式化功能，可用于定制输出格式。 ```python # 使用旧式的%格式化字符串 print("%.1f" % 0.13333) # 使用str.format()方法 print("{:.1f}".format(0.13333)) # 使用round()函数进行四舍五入 print(round(0.13333, 1)) # 使用格式化字符串直接嵌入变量和格式化选项 print('{0}{1:.2f}'.format('Pi=', 3.1415)) ``` 以上知识点涵盖了pandas库的基本数据结构操作、数据的选择和操作方法，Matplotlib的简单图表绘制，以及爬虫中request和BeautifulSoup库的使用，并穿插了字符串的格式化和正则表达式的应用，这些都是Python编程中常用到的技能。通过这些知识点的学习，可以大幅提升在数据处理和网络数据采集方面的能力。

根据你的代码，你想将提取的文件名数据加载到一个DataFrame中，并将原有的CSV文件读取到另一个DataFrame中。然后，你可能想将提取的文件名数据写入已建的CSV文件中。以下是你可以继续完善的代码示例： ```python import os from bs4 import BeautifulSoup import re import csv import pandas as pd # 指定文件夹路径 folder_path = "C:/Users/test/Desktop/DIDItest" # 正则表达式模式 pattern = r'<body>(.*?)<\/body>' # 创建CSV文件并写入表头 csv_file = "output.csv" header = ['File Name'] # 表头 # 首次创建CSV文件时，写入表头 if not os.path.exists(csv_file): with open(csv_file, mode='w', newline='') as file: writer = csv.writer(file) writer.writerow(header) # 遍历文件夹中的所有文件 for root, dirs, files in os.walk(folder_path): for file in files: # 读取html文件 file_path = os.path.join(root, file) with open(file_path, "r", encoding="utf-8-sig") as f: html_code = f.read() # 创建BeautifulSoup对象 soup = BeautifulSoup(html_code, 'html.parser') # 使用正则表达式匹配<body>标签内的数据 body_data = re.findall(pattern, html_code, re.DOTALL) # 剔除和() body_data = body_data[0].replace("", "").replace("()", "") # 使用正则表达式提取文件名 matches = re.findall(r'"([^"]*)"', body_data) if matches: file_name = matches[0] else: file_name = "No matches found." # 替换字符 file_name = file_name.replace('No matches found.', '') # 将提取的数据写入CSV文件 with open(csv_file, mode='a', newline='') as file: writer = csv.writer(file) writer.writerow([file_name]) print("数据已成功写入CSV文件") ``` 在上面的代码中，我添加了一些逻辑来创建CSV文件并写入表头。然后，使用`csv.writer`将提取的文件名写入CSV文件中的新行。请确保提供正确的文件夹路径和CSV文件路径，并根据需要调整代码。

阅读全文

相关推荐

BeautifulSoup4-4.3.0: Python解析HTML/XML库包

Python爬虫实战教程：PPT/Word/影视/电子书全攻略

BeautifulSoup中文文档：HTML/XML解析器的实用教程

Python爬虫项目源代码集合：软件/插件开发指南

果壳处理器研究小组(Topic基于RISCV64果核处理器的卷积神经网络加速器研究)详细文档+全部资料+优秀项目+源码.zip

JSP学生学籍管理系统（源代码+论文+开题报告+外文翻译+答辩PPT）(2024x5).7z

LabVIEW实现NB-IoT通信【LabVIEW物联网实战】

最新推荐

果壳处理器研究小组(Topic基于RISCV64果核处理器的卷积神经网络加速器研究)详细文档+全部资料+优秀项目+源码.zip

JSP学生学籍管理系统（源代码+论文+开题报告+外文翻译+答辩PPT）(2024x5).7z

LabVIEW实现NB-IoT通信【LabVIEW物联网实战】

【java毕业设计】智慧社区综合平台（源代码+论文+PPT模板）.zip

基于python3+selenium+unittest的WebUI自动化测试框架，使用POM(页面对象模型)设计模式，适合几乎所有web项目，资料齐全+详细文档

JavaScript实现的高效pomodoro时钟教程

管理建模和仿真的文件

【WebLogic客户端兼容性提升秘籍】：一站式解决方案与实战案例

使用jupyter读取文件“近5年考试人数.csv”，绘制近5年高考及考研人数发展趋势图，数据如下（单位：万人）。

CMake 3.25.3版本发布：程序员必备构建工具