<html> <meta http-equiv="Content=-Type" content="text/html; charset=utf-8"> <head> <link href="http://192.167.1.101/hint.css" rel="stylesheet"></link> </head> <body>[talkid:138031361]204年4月20日 03:55:45 , 434343 向 232323 发送我们已经是好友了，开始聊天吧！ () [talkid:138031362]204年4月20日 04:45:45 , 434343 向 123456 发送音频 :[<ahref="files/f/f123fsasfsfsjdfrhf_n.m4a"]>音频</a> () [talkid:138031363]204年4月20日 04:55:45 , 434343 向 123456 发送音频 :[<ahref="files/f/f123fsasfsfsjdfrhf_n.jpg"]>图片</a> () [talkid:138031364]204年4月20日 05:55:45 , 434343 向 3234221 发送我们已经是好友了，开始聊天吧！ () [talkid:138031365]204年4月20日 06:55:45 , 434343 向 1359075 发送我们已经是好友了，开始聊天吧！ () </body> </html>提取网页内ID、时间、发送号码、接收号码、信息内容，如果是音频则提取文件地址

时间: 2023-08-14 16:59:02 浏览: 105

你可以使用Python中的BeautifulSoup库来解析HTML，并提取所需的数据。以下是一个示例代码，演示如何从给定的HTML中提取ID、时间、发送号码、接收号码和信息内容： ```python from bs4 import BeautifulSoup html = """ <html> <meta http-equiv="Content=-Type" content="text/html; charset=utf-8"> <head> <link href="http://192.167.1.101/hint.css" rel="stylesheet"></link> </head> <body>[talkid:138031361]204年4月20日 03:55:45 , 434343 向 232323 发送我们已经是好友了，开始聊天吧！ () [talkid:138031362]204年4月20日 04:45:45 , 434343 向 123456 发送音频 :[<ahref="files/f/f123fsasfsfsjdfrhf_n.m4a"]>音频</a> () [talkid:138031363]204年4月20日 04:55:45 , 434343 向 123456 发送音频 :[<ahref="files/f/f123fsasfsfsjdfrhf_n.jpg"]>图片</a> () [talkid:138031364]204年4月20日 05:55:45 , 434343 向 3234221 发送我们已经是好友了，开始聊天吧！ () [talkid:138031365]204年4月20日 06:55:45 , 434343 向 1359075 发送我们已经是好友了，开始聊天吧！ () </body> </html> """ soup = BeautifulSoup(html, 'html.parser') # 提取所有的标签 p_tags = soup.find_all('p') for p_tag in p_tags: # 提取ID talk_id = p_tag.find_previous(string=lambda text: isinstance(text, str) and '[talkid:' in text) talk_id = talk_id.strip('[talkid:]') # 提取时间 timestamp = p_tag.find_previous('body').find_previous('head').find('meta', {'http-equiv': 'Content=-Type'})['content'] # 提取发送号码 send_number = p_tag.find('span', {'class': 'hint-success'}).text # 提取接收号码 receive_number = p_tag.find_all('span', {'class': 'hint-success'})[1].text # 提取信息内容 message = p_tag.previous_sibling.strip() # 判断是否是音频 if '音频' in message: file_url = p_tag.find('a')['href'] print(f"ID: {talk_id}, 时间: {timestamp}, 发送号码: {send_number}, 接收号码: {receive_number}, 音频文件地址: {file_url}") else: print(f"ID: {talk_id}, 时间: {timestamp}, 发送号码: {send_number}, 接收号码: {receive_number}, 信息内容: {message}") ``` 运行代码后，你将看到提取到的数据，包括ID、时间、发送号码、接收号码和信息内容。如果信息内容是音频，则还会提取音频文件的地址。请注意，这只是一个简单的示例代码，你可能需要根据实际情况进行相应的修改和调整。同时，对于更复杂的HTML结构，你可能需要使用更多的定位方法来提取所需的数据。

阅读全文

相关推荐

HTML中的<head>和</head>：理解与应用

HTML5页面<head>部分的快速生成工具介绍

HTML head结构详解与常用元素解析

以下代码是什么意思：<head> <meta http-equiv="Content-Type" content="text/html; charset=utf-8" /> <title>网站首页</title> </head>

<head> <meta charset="UTF-8"> <meta http-equiv="X-UA-Compatible" content="IE=edge"> <meta name="viewport" content="width=device-width, initial-scale=1.0,user-scalable=no"> <title>Document</title> </head>

<head> <title>Home</title> <meta name="viewport" content="width=device-width, initial-scale=1"> <meta http-equiv="Content-Type" content="text/html; charset=utf-8" /> <meta name="keywords" content="" /> <script src="js/modernizr.custom.js"></script> </head>

<head> <meta charset="utf-8"> <meta http-equiv="X-UA-Compatible" content="IE=edge"> <meta name="viewport" content="width=device-width,initial-scale=1.0"> <title>在线书店</title> </head>

HTML head标签详解：构建高效网页头部

理解HTML head头结构与优化技巧

基于Andorid的音乐播放器项目改进版本设计.zip

uniapp-machine-learning-from-scratch-05.rar

大家在看

owi-slave:AVR单线从机

马尔科夫车速预测的代码.txt

Matlab seawater工具包

swftest.zip

100万+商品条形码库Excel+SQL

最新推荐

基于Andorid的音乐播放器项目改进版本设计.zip

uniapp-machine-learning-from-scratch-05.rar

game_patch_1.30.21.13250.pak

【毕业设计-java】springboot-vue计算机学院校友网源码（完整前后端+mysql+说明文档+LunW）.zip

机器学习-特征工程算法

Cyclone IV硬件配置详细文档解析

【WinCC与Excel集成秘籍】：轻松搭建数据交互桥梁（必读指南）

华为模拟互联地址配置

Java游戏开发简易实现与地图控制教程

【超市销售数据深度分析】：从数据库挖掘商业价值的必经之路