strip(" ").strip("\n").strip("\u3000\u3000 \u200b")什么意思
时间: 2023-09-14 15:06:59 浏览: 178
这是一个Python字符串操作,用于去除字符串开头和结尾的空格、换行符和Unicode空格字符(包括全角空格和零宽空格字符)。具体解释如下:
- strip(" "):去除开头和结尾的空格字符。
- strip("\n"):去除开头和结尾的换行符。
- strip("\u3000\u3000 \u200b"):去除开头和结尾的Unicode空格字符,包括全角空格(\u3000)、半角空格(\u0020)和零宽空格(\u200b)。
这个操作可以用于清理文本数据中的空白和换行符,使得文本更加整洁。
相关问题
def get_detail(self,page_source): result = [] htmls = etree.HTML(page_source) count = htmls.xpath('//*[@id="pl_feedlist_index"]/div[2]/div') temp="" list_1 = [] # creat_time ="".join(htmls.xpath('//*[@id="pl_feedlist_index"]/div[2]/div[1]/div/div[1]/div[2]/div[2]/a[1]/text()')).strip(" ").strip("\n").strip("\u3000").strip("\u200b") creat_time ="".join(htmls.xpath('//*[@id="pl_feedlist_index"]/div[2]/div/*/div/div[1]/div[2]/div[2]/a[1]/text()')).strip(" ").strip("\n").strip("\u3000").strip("\u200b") user_name ="".join(htmls.xpath('//*[@id="pl_feedlist_index"]/div[2]/div[1]/div/div[1]/div[2]/div[1]/div[2]/a/text()')).strip(" ").strip("\n").strip("\u3000").strip("\u200b") title ="".join(htmls.xpath('//*[@id="pl_feedlist_index"]/div[2]/div[1]/div/div[1]/div[2]/p[1]/a[1]/text()')).strip(" ").strip("\n").strip("\u3000").strip("\u200b") # text ="".join(htmls.xpath('//*[@id="pl_feedlist_index"]/div[2]/div[1]/div/div[1]/div[2]/p[2]/text()')).strip(" ").strip("\n").strip("\u3000").strip("\u200b") text ="".join(htmls.xpath('//*[@id="pl_feedlist_index"]/div[2]/div/div/div[1]/div[2]/p/text()')).strip(" ").strip("\n").strip("\u3000").strip("\u200b") list_1 =[str(creat_time),str(user_name),str(title),str(text)] result.append(list_1) titles=full3+'\\'+user_name+'.txt' f = open(titles,'a',encoding='utf-8',newline='') f.write(str(creat_time)+"\n") f.write(str(user_name)+"\n") f.write(str(title)+"\n") 怎么修改这段代码能够使得文本内容在不同用户名下存储
您可以将 `titles=full3+'\\'+user_name+'.txt'` 这一行代码放在 `user_name` 的赋值语句下方,这样每次处理一条微博时,都会根据 `user_name` 的不同来创建不同的文件。
修改后的代码如下所示:
```
def get_detail(self, page_source):
result = []
htmls = etree.HTML(page_source)
count = htmls.xpath('//*[@id="pl_feedlist_index"]/div[2]/div')
temp = ""
list_1 = []
# creat_time ="".join(htmls.xpath('//*[@id="pl_feedlist_index"]/div[2]/div[1]/div/div[1]/div[2]/div[2]/a[1]/text()')).strip(" ").strip("\n").strip("\u3000").strip("\u200b")
creat_time ="".join(htmls.xpath('//*[@id="pl_feedlist_index"]/div[2]/div/*/div/div[1]/div[2]/div[2]/a[1]/text()')).strip(" ").strip("\n").strip("\u3000").strip("\u200b")
user_name ="".join(htmls.xpath('//*[@id="pl_feedlist_index"]/div[2]/div[1]/div/div[1]/div[2]/div[1]/div[2]/a/text()')).strip(" ").strip("\n").strip("\u3000").strip("\u200b")
title ="".join(htmls.xpath('//*[@id="pl_feedlist_index"]/div[2]/div[1]/div/div[1]/div[2]/p[1]/a[1]/text()')).strip(" ").strip("\n").strip("\u3000").strip("\u200b")
# text ="".join(htmls.xpath('//*[@id="pl_feedlist_index"]/div[2]/div[1]/div/div[1]/div[2]/p[2]/text()')).strip(" ").strip("\n").strip("\u3000").strip("\u200b")
text ="".join(htmls.xpath('//*[@id="pl_feedlist_index"]/div[2]/div/div/div[1]/div[2]/p/text()')).strip(" ").strip("\n").strip("\u3000").strip("\u200b")
list_1 =[str(creat_time),str(user_name),str(title),str(text)]
titles = full3+'\\'+user_name+'.txt'
f = open(titles,'a',encoding='utf-8',newline='')
f.write(str(creat_time)+"\n")
f.write(str(user_name)+"\n")
f.write(str(title)+"\n")
f.close()
result.append(list_1)
```
这样就可以实现将不同用户的微博内容存储在不同的文件中了。
def get_detail(self,page_source): result = [] htmls = etree.HTML(page_source) count = htmls.xpath('//*[@id="pl_feedlist_index"]/div[2]/div') temp="" list_1 = [] creat_time ="".join(htmls.xpath('//*[@id="pl_feedlist_index"]/div[2]/div[1]/div/div[1]/div[2]/div[2]/a[1]/text()')).strip(" ").strip("\n").strip("\u3000").strip("\u200b") user_name ="".join(htmls.xpath('//*[@id="pl_feedlist_index"]/div[2]/div[1]/div/div[1]/div[2]/div[1]/div[2]/a/text()')).strip(" ").strip("\n").strip("\u3000").strip("\u200b") title ="".join(htmls.xpath('//*[@id="pl_feedlist_index"]/div[2]/div[1]/div/div[1]/div[2]/p[1]/a[1]/text()')).strip(" ").strip("\n").strip("\u3000").strip("\u200b") # text ="".join(htmls.xpath('//*[@id="pl_feedlist_index"]/div[2]/div[1]/div/div[1]/div[2]/p[2]/text()')).strip(" ").strip("\n").strip("\u3000").strip("\u200b") text ="".join(htmls.xpath('//*[@id="pl_feedlist_index"]/div[2]/div/div/div[1]/div[2]/p/text()')).strip(" ").strip("\n").strip("\u3000").strip("\u200b") list_1 =[str(creat_time),str(user_name),str(title),str(text)] result.append(list_1) titles=full3+'\\'+user_name+'.txt' f = open(titles,'a',encoding='utf-8',newline='') f.write(str(creat_time)+"\n") f.write(str(user_name)+"\n") f.write(str(title)+"\n") for i in range( 0, len(text), 80 ): temp+=text[i:i+80]+"\n"
这段代码看起来像是用来从网页源代码中提取特定信息的。具体来说,它首先使用XPath语法来定位页面中的特定元素,例如用户名称、发布时间、标题和正文。然后,它将这些信息格式化为一个列表,并将其附加到结果列表中。接下来,它将这些信息写入一个文本文件中,其中文本被格式化为每80个字符一行。这个函数似乎是用来将微博的详细内容保存到本地文件中。
阅读全文