提取所有talk_id
时间: 2023-07-22 09:07:39 浏览: 44
要提取所有的 `talk_id`,您可以在代码中使用正则表达式进行匹配。以下是修改后的代码示例:
```python
import os
import re
# 指定文件夹路径
folder_path = "C:/Users/test/Desktop/DIDItest"
# 正则表达式模式
pattern = r'\[talkid:(\d+)\]'
# 遍历文件夹中的所有文件
for root, dirs, files in os.walk(folder_path):
for file in files:
# 读取html文件
file_path = os.path.join(root, file)
with open(file_path, "r", encoding="utf-8") as f:
html_code = f.read()
# 使用正则表达式匹配talk_id
talk_ids = re.findall(pattern, html_code)
# 打印提取的talk_id
print(talk_ids)
```
这段代码使用了 `re` 模块来进行正则表达式匹配。`pattern` 变量定义了匹配 `[talkid:数字]` 格式的字符串的模式。然后,使用 `re.findall()` 方法在 HTML 代码中找到所有匹配的 `talk_id`,并将它们保存在 `talk_ids` 列表中。最后,打印提取的 `talk_id`。
请确保您已经安装了 `re` 模块,它是 Python 内置的模块,无需额外安装。