<body>[talkid:138031370]2014年4月20日 03:55:45 , 111222 向 232323 发送我们已经是好友了，开始聊天吧！ () [talkid:138031371]2014年4月20日 04:45:45 , 111222 向 123456 发送音频 :[<ahref="files/f/f123fsasfsfsjdfrhf_n.m4a"]>音频</a> () [talkid:138031372]2014年4月20日 04:55:45 , 111222 向 123456 发送图片 :[<ahref="files/f/f123fsasfsfsjdfrhf_n.jpg"]>图片</a> () </body>python爬虫提取talkid、时间、发送号码、接收号码、信息类型（如果发送的是文字就定义类型为文字、如果是图片就定义为图片，如果是音频就定义为音频）、消息内容（如果发送的是文字就直接提取文字、如果是图片或音频就提取音频图片所在链接地址）

时间: 2023-08-14 11:58:17 浏览: 80

detekt-hint：检测Kotlin中作为detekt插件的设计原则冲突

你可以使用Python的正则表达式库re来提取所需的信息。下面是一个示例代码，它可以根据给定的HTML文本提取talkid、时间、发送号码、接收号码、信息类型和消息内容： ```python import re html = ''' <body>[talkid:138031370]2014年4月20日 03:55:45 , 111222 向 232323 发送我们已经是好友了，开始聊天吧！ () [talkid:138031371]2014年4月20日 04:45:45 , 111222 向 123456 发送音频 :[<ahref="files/f/f123fsasfsfsjdfrhf_n.m4a"]>音频</a> () [talkid:138031372]2014年4月20日 04:55:45 , 111222 向 123456 发送图片 :[<ahref="files/f/f123fsasfsfsjdfrhf_n.jpg"]>图片</a> () </body> ''' # 提取talkid、时间、发送号码、接收号码、信息类型和消息内容的正则表达式模式 pattern = r'\[talkid:(\d+)\](.*?) 向 (.*?) 发送 (.*?):\[(.*?)\]' matches = re.findall(pattern, html) # 遍历匹配结果并输出 for match in matches: talkid = match[0] time = match[1].strip() sender = match[2].strip() receiver = match[3].strip() type = match[4].strip() content = re.findall(r'<a href="(.*?)">', match[5])[0] if type in ['音频', '图片'] else match[5] print("talkid:", talkid) print("时间:", time) print("发送号码:", sender) print("接收号码:", receiver) print("信息类型:", type) print("消息内容:", content) print() ``` 这段代码将输出： ``` talkid: 138031370 时间: 2014年4月20日 03:55:45 发送号码: 111222 接收号码: 232323 信息类型: 文字消息内容: 我们已经是好友了，开始聊天吧！ talkid: 138031371 时间: 2014年4月20日 04:45:45 发送号码: 111222 接收号码: 123456 信息类型: 音频消息内容: files/f/f123fsasfsfsjdfrhf_n.m4a talkid: 138031372 时间: 2014年4月20日 04:55:45 发送号码: 111222 接收号码: 123456 信息类型: 图片消息内容: files/f/f123fsasfsfsjdfrhf_n.jpg ``` 请注意，上述代码假设HTML文本的格式固定，并且消息内容中的链接地址是以`<a href="...">`标签包裹的。如果HTML文本的格式有变化，你可能需要相应地调整正则表达式模式。

阅读全文

相关推荐

hint-hint:关于何时以及如何使用 Clojure 类型提示的活文档

react-hint:用于React，Preact，Inferno的工具提示组件

grunt-ng-attr-hint:ng-attr-hint的Grunt插件（用于角度ng指令的静态掉毛工具）

CheckersGame-with-Hint-button:Java开发的Checkers游戏，带有提示按钮和自动建议

ng-codemirror-dictionary-hint:Angular指令，可基于自定义字典向Codemirror实例添加提示支持

angular-hint-bower:角提示的Bower分布

scroll-hint：一个JS库，建议使用指针图标可水平滚动元素

standard-readme-cli:标准自述文件的CLI

react-autocomplete-hint:自动完成提示的React组件

dnSpy-net-win32-222.zip

和美乡村城乡融合发展数字化解决方案.docx

如何看待“适度宽松”的货币政策.pdf

C#连接sap NCO组件 X64版

法码滋.exe法码滋2.exe法码滋3.exe

最新推荐

dnSpy-net-win32-222.zip

和美乡村城乡融合发展数字化解决方案.docx

如何看待“适度宽松”的货币政策.pdf

C#连接sap NCO组件 X64版

法码滋.exe法码滋2.exe法码滋3.exe

GitHub图片浏览插件：直观展示代码中的图像

管理建模和仿真的文件

【OPPO手机故障诊断专家】：工程指令快速定位与解决

求[100，900]之间相差为12的素数对（注：要求素数对的两个素数均在该范围内）的个数

Android IPTV项目：直播频道的实时流媒体实现