首页提取所有talk_id

提取所有talk_id

时间: 2023-07-22 09:07:39 浏览: 44

要提取所有的 `talk_id`，您可以在代码中使用正则表达式进行匹配。以下是修改后的代码示例： ```python import os import re # 指定文件夹路径 folder_path = "C:/Users/test/Desktop/DIDItest" # 正则表达式模式 pattern = r'\[talkid:(\d+)\]' # 遍历文件夹中的所有文件 for root, dirs, files in os.walk(folder_path): for file in files: # 读取html文件 file_path = os.path.join(root, file) with open(file_path, "r", encoding="utf-8") as f: html_code = f.read() # 使用正则表达式匹配talk_id talk_ids = re.findall(pattern, html_code) # 打印提取的talk_id print(talk_ids) ``` 这段代码使用了 `re` 模块来进行正则表达式匹配。`pattern` 变量定义了匹配 `[talkid:数字]` 格式的字符串的模式。然后，使用 `re.findall()` 方法在 HTML 代码中找到所有匹配的 `talk_id`，并将它们保存在 `talk_ids` 列表中。最后，打印提取的 `talk_id`。请确保您已经安装了 `re` 模块，它是 Python 内置的模块，无需额外安装。