re.sub(r'[\\/:*?"<>|\t]', "", chapt_name) 是什么意思

这行代码是使用 Python 的 re 库中的 sub 函数，用来替换字符串中的特殊字符。其中，r'[\\/:*?"<>|\t]' 是一个正则表达式，用来匹配所有的反斜杠、正斜杠、冒号、星号、问号、双引号、尖括号、竖线和制表符。而 "" 则是要替换成的字符串，即空字符串。因此，这行代码的作用是将 chapt_name 中的特殊字符全部替换成空字符串，从而得到一个不含有特殊字符的字符串。

运行下面代码，运行结果没有保存文件，请帮我找出原因 # -- coding: utf-8 -- import urllib.request import re def getNovertContent(): url = 'http://www.quannovel.com/read/640/' req = urllib.request.Request(url) req.add_header('User-Agent', ' Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/113.0.0.0 Safari/537.36') data = urllib.request.urlopen(req).read().decode('gbk') str1 = str(data) # 将网页数据转换为字符串 reg = r'<li><a href="(.?)" title=".?">(.?)</a><li>' reg = re.compile(reg) urls = reg.findall(str1) for url in urls: novel_url = url[0] novel_title = url[1] chapt = urllib.request.urlopen(novel_url).read() chapt_html = chapt.decode('gbk') reg = r'</script> (.?)</script type="text/javascript">' reg = re.compile(reg, re.S) chapt_content = reg.findall(chapt_html) chapt_content = chapt_content[0].replace( " ", "") chapt_content = chapt_content.replace("<br />", "") print("正在保存 %s" % novel_title) with open("{}.txt".format(novel_title), 'w', encoding='utf-8') as f: f.write(chapt_content) getNovertContent()

在这段代码中，正则表达式的模式字符串存在错误。具体来说，第17行的正则表达式模式字符串r'</script> (.?)</script type="text/javascript">' 需要修改为r'</script>    (.*?)</script type="text/javascript">'，因为小说网站中的章节正文内容前面有四个空格，而不是一个空格。另外，正则表达式中的点号也需要修改为点号加上一个问号，以适配所有可能的字符。修改后的代码如下： ``` # -- coding: utf-8 -- import urllib.request import re def getNovertContent(): url = 'http://www.quannovel.com/read/640/' req = urllib.request.Request(url) req.add_header('User-Agent', ' Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/113.0.0.0 Safari/537.36') data = urllib.request.urlopen(req).read().decode('gbk') str1 = str(data) # 将网页数据转换为字符串 reg = r'<li><a href="(.?)" title=".?">(.?)</a><li>' reg = re.compile(reg) urls = reg.findall(str1) for url in urls: novel_url = url[0] novel_title = url[1] chapt = urllib.request.urlopen(novel_url).read() chapt_html = chapt.decode('gbk') reg = r'</script>    (.*?)</script type="text/javascript">' reg = re.compile(reg, re.S) chapt_content = reg.findall(chapt_html) chapt_content = chapt_content[0].replace("    ", "") chapt_content = chapt_content.replace("<br />", "") print("正在保存 %s" % novel_title) with open("{}.txt".format(novel_title), 'w', encoding='utf-8') as f: f.write(chapt_content) getNovertContent() ``` 这样就可以正常保存爬取到的小说内容了。

运行下面代码，运行结果没有保存文件，请帮我找出原因 # -- coding: utf-8 -- # 指定文件编码格式为utf-8 import urllib.request import re def getNovertContent(): url = 'http://www.quannovel.com/read/640/' req = urllib.request.Request(url) req.add_header( 'User-Agent', ' Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/113.0.0.0 Safari/537.36') data = urllib.request.urlopen(req).read().decode('gbk') str1 = str(data) # 将网页数据转换为字符串 reg = r'<li><a href="(.?)" title=".?">(.?)</a><li>' reg = re.compile(reg) urls = reg.findall(str1) for url in urls: novel_url = url[0] novel_title = url[1] chapt = urllib.request.urlopen(novel_url).read() chapt_html = chapt.decode('gbk') reg = r'</script> (.?)</script> type="text/javascript">' reg = re.compile(reg, re.S) chapt_content = reg.findall(reg, chapt_html) chapt_content = chapt_content[0].replace( " ", "") chapt_content = chapt_content.replace("<br />", "") print("正在保存 %s" % novel_title) with open("{}.txt".format(novel_title), 'w') as f: f.write(chapt_content) getNovertContent()

代码中存在两个问题导致没有保存文件： 1. 在正则表达式匹配章节内容时，应该调用 `reg.findall(chapt_html)` 而不是 `reg.findall(reg, chapt_html)`。 2. 在打开文件时，需要指定文件的编码格式为 utf-8，因为在代码开头已经指定了文件编码格式为 utf-8。可以将 `with open("{}.txt".format(novel_title), 'w') as f:` 改为 `with open("{}.txt".format(novel_title), 'w', encoding='utf-8') as f:`。修改后的代码如下： ```python # -- coding: utf-8 -- # 指定文件编码格式为utf-8 import urllib.request import re def getNovertContent(): url = 'http://www.quannovel.com/read/640/' req = urllib.request.Request(url) req.add_header('User-Agent', ' Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/113.0.0.0 Safari/537.36') data = urllib.request.urlopen(req).read().decode('gbk') str1 = str(data) # 将网页数据转换为字符串 reg = r'<li><a href="(.+?)" title=".+?">(.+?)</a><li>' reg = re.compile(reg) urls = reg.findall(str1) for url in urls: novel_url = url[0] novel_title = url[1] chapt = urllib.request.urlopen(novel_url).read() chapt_html = chapt.decode('gbk') reg = r'</script> (.+?)</script> type="text/javascript">' reg = re.compile(reg, re.S) chapt_content = reg.findall(chapt_html) chapt_content = chapt_content[0].replace(" ", "") chapt_content = chapt_content.replace("<br />", "") print("正在保存 %s" % novel_title) with open("{}.txt".format(novel_title), 'w', encoding='utf-8') as f: f.write(chapt_content) getNovertContent() ```

re.sub(r'[\\/:*?"<>|\t]', "", chapt_name) 是什么意思

相关推荐

book-chapt7turbulent-Combustion-Modeling.rar_软件设计/软件工程_PDF_

AL_chapt_03.pdf

AL_chapt_02.pdf

[{ "resource": "/home/user/d2lros2/chapt1/.vscode/launch.json", "owner": "_generated_diagnostic_collection_name_#2", "code": "2", "severity": 4, "message": "Please use type node instead", "startLineNumber": 14, "startColumn": 13, "endLineNumber": 14, "endColumn": 31 }]

sql = """insert into chapter (chapter_name,chapter_content,book_id) values ( "%s",'%s',"%s" %(chapt_name,page_text,book_id));""" 怎么改

如何搭建chapt服务器

eclipse中左边chapt框怎么不见了，如何找回

我试了你给出的几个方法，还是没有解决

AL_chapt_01.pdf

CHAPT14.rar_The Program

chapt 2.rar_SPE_against7b7_matlab._多向PCA故障检测_数据故障检测

Chapt4_class1.py

chapt.rar_matlab 飞行器_matlab 动态面_神经网络控制_航迹控制_飞行器 matlab

Chapt6Exercise4c.zip_mechanics_quantum_quantum mechanics

Chapt7Fig3.zip_quantum_quantum mechanics

新建文本文档.txt

最新推荐

新建文本文档.txt

开源Git gui工具Fork

yolov5在华为昇腾atlas上加速推理

C++ 实现贪吃蛇小游戏

ec616DataSheet

zigbee-cluster-library-specification

管理建模和仿真的文件

MATLAB柱状图在信号处理中的应用：可视化信号特征和频谱分析

HSV转为RGB的计算公式

JSBSim Reference Manual