首页import requests import re import json import os session = requests.session() def fetch_url(url): return session.get(url).content.decode('gbk') def get_doc_id(url): # print(re.findall('view/(.*).html', url)[0]) return re.findall('view/(.*).html', url)[0]

import requests import re import json import os session = requests.session() def fetch_url(url): return session.get(url).content.decode('gbk') def get_doc_id(url): # print(re.findall('view/(.).html', url)[0]) return re.findall('view/(.).html', url)[0]

时间: 2023-10-07 15:06:09 浏览: 134

这是一个 Python 代码片段，使用 requests 库和正则表达式从指定的网页 URL 中提取出文档 ID。其中 session 是一个 requests.Session 对象，可以在多次请求之间保持 cookies 和其他相关信息。函数 fetch_url(url) 将会返回一个包含网页内容的字符串。函数 get_doc_id(url) 使用正则表达式从 URL 中提取出文档 ID，并返回该 ID。

阅读全文