import os from bs4 import BeautifulSoup import re # 指定文件夹路径 folder_path = "C:/Users/test/Desktop/DIDItest" # 正则表达式模式 pattern = r'<body>(.*?)<\/body>' # 遍历文件夹中的所有文件 for root, dirs, files in os.walk(folder_path): for file in files: # 读取html文件 file_path = os.path.join(root, file) with open(file_path, "r", encoding="utf-8") as f: html_code = f.read() # 使用正则表达式匹配<body>标签内的数据 body_data = re.findall(pattern, html_code, re.DOTALL) # 剔除<p>和()</p> body_data = body_data[0].replace("<p>", "").replace("()</p>", "") # 使用正则表达式提取talk_id、时间、发送者ID和接收者ID matches = re.findall(r'\[talkid:(\d+)\](\d+年\d+月\d+日 \d+:\d+:\d+).*?<span.*?>(\d+)<.*?>(.*?)<', body_data) # 提取唯一ID,时间,发送号码和私聊群聊关键词 matches1 = re.findall(r'<span.*?hint-success.*?>(\d+)<.*?>', body_data) # match = re.search('(中发言|发送)\s(.*?)\s', body_data) # if match: # content = match.group(2) matches2 = re.findall('(中发言|发送)\s(.*?)\s', body_data) for match in matches2: content = match[1] soup = BeautifulSoup(content, 'html.parser') if soup.find('<a href'): content = '' # 提取第二个号码为接收号码 if len(matches1) >= 2: receive_id = matches1[3] # 处理匹配结果 for match in matches: talk_id = match[0] time = match[1] send_id = match[2] talk_type = match[3] # 进行时间格式转换,将time转换为"0000-00-00"格式 time = time.replace('年', '-').replace('月', '-').replace('日', '') talk_type = talk_type.replace('向', '私聊').replace('在群', '群聊') # 打印结果 print("Talk ID:", talk_id) print("Time:", time) print("Sender ID:", send_id) print("Receive_id:", receive_id) print("Talk_type:", talk_type) print("Content:",content) print("---")导入至csv

时间: 2024-04-16 10:28:58 浏览: 59
要将提取的信息导入 CSV 文件,你可以使用 Python 的 CSV 模块。下面是一个示例代码,可以帮助你实现这个需求: ```python import os import csv from bs4 import BeautifulSoup import re folder_path = "C:/Users/test/Desktop/DIDItest" output_file = "output.csv" # 正则表达式模式 pattern = r'<body>(.*?)<\/body>' # 创建 CSV 文件并写入表头 with open(output_file, "w", newline="", encoding="utf-8") as f: writer = csv.writer(f) writer.writerow(["Talk ID", "Time", "Sender ID", "Receiver ID", "Talk Type", "Content"]) # 遍历文件夹中的所有文件 for root, dirs, files in os.walk(folder_path): for file in files: file_path = os.path.join(root, file) # 读取 HTML 文件 with open(file_path, "r", encoding="utf-8") as html_file: html_code = html_file.read() # 使用正则表达式匹配<body>标签内的数据 body_data = re.findall(pattern, html_code, re.DOTALL) if body_data: # 剔除<p>和()</p> body_data = body_data[0].replace("<p>", "").replace("()</p>", "") # 使用正则表达式提取信息 matches = re.findall(r'\[talkid:(\d+)\](\d+年\d+月\d+日 \d+:\d+:\d+).*?<span.*?>(\d+)<.*?>(.*?)<', body_data) matches1 = re.findall(r'<span.*?hint-success.*?>(\d+)<.*?>', body_data) matches2 = re.findall('(中发言|发送)\s(.*?)\s', body_data) if len(matches1) >= 2: receive_id = matches1[1] # 处理匹配结果 for match in matches: talk_id = match[0] time = match[1] send_id = match[2] talk_type = match[3] # 进行时间格式转换 time = time.replace('年', '-').replace('月', '-').replace('日', '') talk_type = talk_type.replace('向', '私聊').replace('在群', '群聊') # 处理内容 content = "" for match in matches2: content = match[1] soup = BeautifulSoup(content, 'html.parser') if soup.find('a'): content = "" break # 写入 CSV 文件 writer.writerow([talk_id, time, send_id, receive_id, talk_type, content]) ``` 这段代码将提取的信息写入名为 "output.csv" 的 CSV 文件中。你可以根据需要修改输出文件的路径和名称。

相关推荐

import os import sqlite3 from bs4 import BeautifulSoup import re # 指定文件夹路径 folder_path = "C:/Users/test/Desktop/DIDItest" # 正则表达式模式 pattern = r'<body>(.*?)</body>' # 连接数据库 conn = sqlite3.connect('chat_data.db') cursor = conn.cursor() # 添加新的字段 cursor.execute("ALTER TABLE DIDI_talk ADD COLUMN file_name TEXT") # 遍历文件夹中的所有文件 for root, dirs, files in os.walk(folder_path): for file in files: # 读取html文件 file_path = os.path.join(root, file) with open(file_path, "r", encoding="utf-8-sig") as f: html_code = f.read() # 创建BeautifulSoup对象 soup = BeautifulSoup(html_code, 'html.parser') # 使用正则表达式匹配<body>标签内的数据 body_data = re.findall(pattern, html_code, re.DOTALL) # 剔除和() body_data = body_data[0].replace("", "").replace("()", "") # # 使用正则表达式提取链接地址 matches2 = re.findall(r'(?:中发言|发送)\s*(.*?)\s*(?:音频 :|图片 :)?(?:\[([^\]]+)\])?', body_data) for match in matches2: # 提取链接地址 file_text = match[1] matches = re.findall(r'"([^"]*)"', file_text) if matches: file_name = matches[0] else: file_name = "No matches found." # 替换字符 file_name = file_name.replace('No matches found.', '') new_data = [file_name] # 更新数据库中新字段的数据 for i, data in enumerate(new_data): cursor.execute("UPDATE DIDI_talk SET file_name = ? WHERE talk_id = ?", (data, i + 1)) # # 处理匹配结果并更新数据库 # for i, match in enumerate(matches): # file_name = matches[0] # new_column_data = new_data[i] # 根据匹配的索引获取对应的新数据 # 提交事务并关闭连接 conn.commit() conn.close() print("---新列数据已添加到数据库中---")

import os from bs4 import BeautifulSoup import re 指定文件夹路径 folder_path = "C:/Users/test/Desktop/DIDItest" 正则表达式模式 pattern = r'<body>(.*?)</body>' 遍历文件夹中的所有文件 for root, dirs, files in os.walk(folder_path): for file in files: # 读取html文件 file_path = os.path.join(root, file) with open(file_path, "r", encoding="utf-8-sig") as f: html_code = f.read() # 创建BeautifulSoup对象 soup = BeautifulSoup(html_code, 'html.parser') # 使用正则表达式匹配<body>标签内的数据 body_data = re.findall(pattern, html_code, re.DOTALL) # 剔除和() body_data = body_data[0].replace("", "").replace("()", "") # 使用正则表达式提取talk_id、时间、发送者ID和接收者ID matches = re.findall(r'\[talkid:(\d+)\](\d+年\d+月\d+日 \d+:\d+:\d+).*?<span.*?>(\d+)<.*?>(.*?)<.*?''((中发言|发送)\s(.*?)\s)', body_data) # 提取唯一ID,时间,发送号码和私聊群聊关键词 matches1 = re.findall(r'<span.*?hint-success.*?>(\d+)', body_data) matches2 = re.findall(r'(?:中发言|发送)\s*(.*?)\s*(?:音频 :|图片 :)?(?:\[([^\]]+)\])?', body_data) # 处理匹配结果 for match in matches: talk_id = match[0] time = match[1] send_id = match[2] talk_type = match[3] content = match[4] # 提取第二个号码为接收号码 if len(matches1) >= 2: receive_id = matches1[3] # 替换字符 time = time.replace('年', '-').replace('月', '-').replace('日', '') talk_type = talk_type.replace('向', '私聊').replace('在群', '群聊') content = content.replace('音频', '').replace('图片', '').replace('发送','').replace('中发言','') content = re.sub(r'\n', '', content) print("---导入完成-----") 使用python 创建sql数据库并将数据导入到sql文件中

网页内源代码模板如下: <html> <meta http-equiv="Content=-Type" content="text/html; charset=utf-8"> <head> </head> <body>[talkid:138031370]2014年4月20日 03:55:45 , 111222232323 发送 我们已经是好友了,开始聊天吧! () [talkid:138031371]2014年4月20日 04:45:45 , 111222123456 发送 音频 :[<ahref="files/f/f123fsasfsfsjdfrhf_n.m4a"]>音频 () [talkid:138031372]2014年4月20日 04:55:45 , 111222123456 发送 图片 :[<ahref="files/f/f123fsasfsfsjdfrhf_n.jpg"]>图片 () </body> </html> 利用python爬虫,打开C:/Users/test/Desktop/DIDItest文件夹下多个文件夹内的html文件源代码,并爬取源代码中的ID、时间、发送号码、接收号码、信息类型、发送内容,如果发送内容不为文本,则提取文件所在链接地址,并将爬取的内容写入csv中,爬取talkid、时间精确至年月日时分秒、发送号码提取第一个 data-hint"">之间的数字,接收号码提取第二个data-hint"">,信息类型就提取 发送与:之间的文字,如果没有:则定义为文字

网页内源代码模板如下: <html> <meta http-equiv="Content=-Type" content="text/html; charset=utf-8"> <head> </head> <body>[talkid:138031370]2014年4月20日 03:55:45 , 111222232323 发送 我们已经是好友了,开始聊天吧! () [talkid:138031371]2014年4月20日 04:45:45 , 111222123456 发送 音频 :[<ahref="files/f/f123fsasfsfsjdfrhf_n.m4a"]>音频 () [talkid:138031372]2014年4月20日 04:55:45 , 111222123456 发送 图片 :[<ahref="files/f/f123fsasfsfsjdfrhf_n.jpg"]>图片 () </body> </html> 利用python爬虫,打开C:/Users/test/Desktop/DIDItest文件夹下多个文件夹内的html文件源代码,并将源代码转换为字符串,爬取源代码字符串中的ID、时间、发送号码、接收号码、信息类型、发送内容,如果发送内容不为文本,则提取文件所在链接地址,并将爬取的内容写入csv中,talkid提取[]中talkid:后的数字、时间精确至年月日时分秒、发送号码提取第一个 data-hint"">之间的数字,接收号码提取第二个data-hint"">,信息类型就提取 发送与:之间的文字,如果没有:则定义为文字

zip
本火锅店点餐系统采用Java语言和Vue技术,框架采用SSM,搭配Mysql数据库,运行在Idea里,采用小程序模式。本火锅店点餐系统提供管理员、用户两种角色的服务。总的功能包括菜品的查询、菜品的购买、餐桌预定和订单管理。本系统可以帮助管理员更新菜品信息和管理订单信息,帮助用户实现在线的点餐方式,并可以实现餐桌预定。本系统采用成熟技术开发可以完成点餐管理的相关工作。 本系统的功能围绕用户、管理员两种权限设计。根据不同权限的不同需求设计出更符合用户要求的功能。本系统中管理员主要负责审核管理用户,发布分享新的菜品,审核用户的订餐信息和餐桌预定信息等,用户可以对需要的菜品进行购买、预定餐桌等。用户可以管理个人资料、查询菜品、在线点餐和预定餐桌、管理订单等,用户的个人资料是由管理员添加用户资料时产生,用户的订单内容由用户在购买菜品时产生,用户预定信息由用户在预定餐桌操作时产生。 本系统的功能设计为管理员、用户两部分。管理员为菜品管理、菜品分类管理、用户管理、订单管理等,用户的功能为查询菜品,在线点餐、预定餐桌、管理个人信息等。 管理员负责用户信息的删除和管理,用户的姓名和手机号都可以由管理员在此功能里看到。管理员可以对菜品的信息进行管理、审核。本功能可以实现菜品的定时更新和审核管理。本功能包括查询餐桌,也可以发布新的餐桌信息。管理员可以查询已预定的餐桌,并进行审核。管理员可以管理公告和系统的轮播图,可以安排活动。管理员可以对个人的资料进行修改和管理,管理员还可以在本功能里修改密码。管理员可以查询用户的订单,并完成菜品的安排。 当用户登录进系统后可以修改自己的资料,可以使自己信息的保持正确性。还可以修改密码。用户可以浏览所有的菜品,可以查看详细的菜品内容,也可以进行菜品的点餐。在本功能里用户可以进行点餐。用户可以浏览没有预定出去的餐桌,选择合适的餐桌可以进行预定。用户可以管理购物车里的菜品。用户可以管理自己的订单,在订单管理界面里也可以进行查询操作。

最新推荐

recommend-type

wx470校园保修系统小程序-springboot+vue+uniapp.zip(可运行源码+sql文件+文档)

基于web的校园报修系统使用Java语言进行编码,使用Mysql创建数据表保存本系统产生的数据。系统可以提供信息显示和相应服务,总之,基于web的校园报修系统集中管理信息,有着保密性强,效率高,存储空间大,成本低等诸多优点。它可以降低信息管理成本,实现信息管理计算机化。 学生信息管理页面,此页面提供给管理员的功能有:学生信息的查询管理,可以删除学生信息、修改学生信息、新增学生信息,还进行了对用户名称的模糊查询的条件。维修人员管理页面,此页面提供给管理员的功能有:查看已发布的维修人员数据,修改维修人员,维修人员作废,即可删除,还进行了对维修人员名称的模糊查询 维修人员信息的类型查询等等一些条件。故障上报管理页面,此页面提供给管理员的功能有:根据故障上报进行条件查询,还可以对故障上报进行新增、修改、查询操作等等。论坛信息管理页面,此页面提供给管理员的功能有:根据论坛信息进行新增、修改、查询操作等等。
recommend-type

wx447火锅店点餐系统-ssm+vue+uniapp.zip(可运行源码+sql文件+文档)

本火锅店点餐系统采用Java语言和Vue技术,框架采用SSM,搭配Mysql数据库,运行在Idea里,采用小程序模式。本火锅店点餐系统提供管理员、用户两种角色的服务。总的功能包括菜品的查询、菜品的购买、餐桌预定和订单管理。本系统可以帮助管理员更新菜品信息和管理订单信息,帮助用户实现在线的点餐方式,并可以实现餐桌预定。本系统采用成熟技术开发可以完成点餐管理的相关工作。 本系统的功能围绕用户、管理员两种权限设计。根据不同权限的不同需求设计出更符合用户要求的功能。本系统中管理员主要负责审核管理用户,发布分享新的菜品,审核用户的订餐信息和餐桌预定信息等,用户可以对需要的菜品进行购买、预定餐桌等。用户可以管理个人资料、查询菜品、在线点餐和预定餐桌、管理订单等,用户的个人资料是由管理员添加用户资料时产生,用户的订单内容由用户在购买菜品时产生,用户预定信息由用户在预定餐桌操作时产生。 本系统的功能设计为管理员、用户两部分。管理员为菜品管理、菜品分类管理、用户管理、订单管理等,用户的功能为查询菜品,在线点餐、预定餐桌、管理个人信息等。 管理员负责用户信息的删除和管理,用户的姓名和手机号都可以由管理员在此功能里看到。管理员可以对菜品的信息进行管理、审核。本功能可以实现菜品的定时更新和审核管理。本功能包括查询餐桌,也可以发布新的餐桌信息。管理员可以查询已预定的餐桌,并进行审核。管理员可以管理公告和系统的轮播图,可以安排活动。管理员可以对个人的资料进行修改和管理,管理员还可以在本功能里修改密码。管理员可以查询用户的订单,并完成菜品的安排。 当用户登录进系统后可以修改自己的资料,可以使自己信息的保持正确性。还可以修改密码。用户可以浏览所有的菜品,可以查看详细的菜品内容,也可以进行菜品的点餐。在本功能里用户可以进行点餐。用户可以浏览没有预定出去的餐桌,选择合适的餐桌可以进行预定。用户可以管理购物车里的菜品。用户可以管理自己的订单,在订单管理界面里也可以进行查询操作。
recommend-type

【独家首发】Matlab实现金枪鱼优化算法TSO优化Transformer-BiLSTM实现负荷数据回归预测.rar

1.版本:matlab2014/2019a/2021a 2.附赠案例数据可直接运行matlab程序。 3.代码特点:参数化编程、参数可方便更改、代码编程思路清晰、注释明细。 4.适用对象:计算机,电子信息工程、数学等专业的大学生课程设计、期末大作业和毕业设计。 5.作者介绍:某大厂资深算法工程师,从事Matlab算法仿真工作10年;擅长智能优化算法、神经网络预测、信号处理、元胞自动机等多种领域的算法仿真实验,更多仿真源码、数据集定制私信+。 替换数据可以直接使用,注释清楚,适合新手
recommend-type

物联网工程_基于ZigBee技术的图书馆节约用电管理系统设计.docx

物联网工程_基于ZigBee技术的图书馆节约用电管理系统设计
recommend-type

算法与数据结构 分布式算法课程 第13章 实用互斥算法.具有读-修改-写操作的算法 共72页.pdf

【课程大纲】 第01章 简介 共68页.pdf 第02章 分布式算法简介 共59页.pdf 第03章 集群领导选举 分布式锁 共83页.pdf 第04章 通用同步网络的集群领导选举 共69页.pdf 第05章同步网络中的基础计算 共76页.pdf 第06章 分布式一致性 共48页.pdf 第07章 Byzantine协议 共34页.pdf 第08章 异步系统模型 共47页.pdf 第09章 基本异步网络算法 共71页.pdf 第10章 同步化器 共39页.pdf 第11章 异步共享内存系统 共49页.pdf 第12章 ASM - Peterson’s算法 共43页.pdf 第13章 实用互斥算法.具有读-修改-写操作的算法 共72页.pdf
recommend-type

图书大厦会员卡管理系统:功能设计与实现

本资源是一份C语言实训题目,目标是设计一个图书大厦的会员卡管理程序,旨在实现会员卡的全流程管理。以下是详细的知识点: 1. **会员卡管理**: - 该程序的核心功能围绕会员卡进行,包括新会员的注册(录入姓名、身份证号、联系方式并分配卡号),以及会员信息的维护(修改、续费、消费结算、退卡、挂失)。 - **功能细节**: - **新会员登记**:收集并存储个人基本信息,如姓名、身份证号和联系方式。 - **信息修改**:允许管理员更新会员的个人信息。 - **会员续费**:通过卡号查询信息并计算折扣,成功续费后更新数据。 - **消费结算**:根据卡号查询消费记录,满1000元自动升级为VIP,并提供9折优惠。 - **退卡和挂失**:退卡时退还余额,删除会员信息;挂失则转移余额至新卡,原卡显示挂失状态。 - **统计功能**:按缴费总额和消费总额排序,显示所有会员的详细信息。 2. **软件开发过程**: - 遵循软件工程标准,需按照分析、设计、编码、调试和测试的步骤来开发程序。 - **菜单设计**:程序以菜单形式呈现,用户通过菜单选择操作项目,如选择录入、查询、挂失等。 3. **输入输出要求**: - 用户通过键盘输入数据,程序会提供清晰的提示信息,包括数据内容、格式和结束方式。 - 菜单界面清晰,包含各项功能选项,如“添加会员”、“查询信息”、“挂失处理”等。 4. **数据结构与函数设计**: - 使用`struct huiyuan`定义会员信息结构体,包含卡号、姓名、身份证号和电话号码字段。 - 设计`menu()`函数负责显示菜单,通过函数调用来执行不同操作的功能函数。 5. **优惠策略**: - 购书打折规则:满1000元享受95折,满2000元享受9折,满5000元享受8折。 通过这个C语言项目,学生将学习到如何运用结构体、函数、文件I/O以及用户交互等核心概念,实现一个实用的会员卡管理系统。同时,也将提升他们的编程逻辑思维、问题解决能力和项目管理能力。
recommend-type

管理建模和仿真的文件

管理Boualem Benatallah引用此版本:布阿利姆·贝纳塔拉。管理建模和仿真。约瑟夫-傅立叶大学-格勒诺布尔第一大学,1996年。法语。NNT:电话:00345357HAL ID:电话:00345357https://theses.hal.science/tel-003453572008年12月9日提交HAL是一个多学科的开放存取档案馆,用于存放和传播科学研究论文,无论它们是否被公开。论文可以来自法国或国外的教学和研究机构,也可以来自公共或私人研究中心。L’archive ouverte pluridisciplinaire
recommend-type

Spring Boot框架测试实践:单元测试、集成测试、端到端测试(确保代码质量与稳定性)

![Spring Boot框架测试实践:单元测试、集成测试、端到端测试(确保代码质量与稳定性)](https://img-blog.csdnimg.cn/direct/70e2d215a77445048e72c56ddce5fa95.png) # 1. Spring Boot测试概述 Spring Boot测试是用于测试Spring Boot应用程序的全面测试框架。它提供了一套丰富的功能,使开发人员能够编写各种类型的测试,从单元测试到端到端测试。Spring Boot测试框架基于JUnit和Mockito等流行的测试库,并与Spring Boot应用程序的特性和功能进行了无缝集成。 通过使
recommend-type

转换json的方法是json.tojsonString

"toJsonString"并不是JSON本身的标准方法,它通常是在某些编程语言如Java中,使用特定库(如Jackson、Gson等)将JSON对象或结构转换成JSON字符串的函数。例如,在Java中,如果你有一个`ObjectMapper`实例,你可以这样做: ```java import com.fasterxml.jackson.databind.ObjectMapper; // 假设你有一个Pojo对象 MyClass obj = new MyClass(); ObjectMapper mapper = new ObjectMapper(); String jsonString
recommend-type

JAVA经典算法实战:月兔繁殖与素数判定

在Java编程中,经典算法题目的学习对于提升程序员的逻辑思维和解决问题的能力具有重要意义。以下是从提供的三个Java程序片段中提炼出的关键知识点: 1. 斐波那契数列问题: 题目涉及的是著名的斐波那契数列,它是一个经典的动态规划问题,特点是每一项都是前两项之和。第一个程序展示了如何使用递归方法实现,通过`exp2`类中的`f()`函数计算给定月份数的兔子总数。这里用到了递归公式 `f(x) = f(x-1) + f(x-2)`,该公式对应于序列1, 1, 2, 3, 5, 8, 13, 21...。递归函数设计巧妙地利用了自身调用,减少了重复计算。 2. 素数判断: 第二个程序涉及到判断101-200范围内的素数。素数是只有两个正因数(1和本身)的大于1的自然数。`math`类中的`iszhishu()`函数用于检测一个数是否为素数,它通过检查2到该数平方根之间的整数能否整除该数来判断。这是一种常见的素数检验方法,称为试除法。当找到能整除的因子时,返回`false`,否则如果循环结束都没有找到因子,返回`true`,表示该数是素数。 3. 水仙花数: 第三个程序提到的“水仙花数”是指那些每一位数字的立方和等于其本身的三位数,如153(1^3 + 5^3 + 3^3 = 153)。这里的算法没有直接给出,但提示了寻找这类数的思路,可能是遍历一定范围内的三位数,然后计算各位数字的立方和进行比较。这个题目考察了基本的数学概念和数据结构的使用,比如可能需要用到列表或者集合来存储和验证水仙花数。 这些Java代码示例涵盖了递归、动态规划(如斐波那契数列)、基本的数学逻辑(素数判定)以及简单的数据处理(如查找特定类型的数)。学习这些算法不仅可以提升编程技能,还能培养解决问题的策略,为后续的复杂编程挑战打下坚实的基础。同时,通过实际操作这些代码,程序员可以加深对Java语言特性和控制结构的理解。