import requests import re import json import os session = requests.session() def fetch_url(url): return session.get(url).content.decode('gbk') def get_doc_id(url): # print(re.findall('view/(.*).html', url)[0]) return re.findall('view/(.*).html', url)[0]
时间: 2023-10-07 08:06:09 浏览: 130
这是一个 Python 代码片段,使用 requests 库和正则表达式从指定的网页 URL 中提取出文档 ID。其中 session 是一个 requests.Session 对象,可以在多次请求之间保持 cookies 和其他相关信息。函数 fetch_url(url) 将会返回一个包含网页内容的字符串。函数 get_doc_id(url) 使用正则表达式从 URL 中提取出文档 ID,并返回该 ID。
阅读全文