yuedu_taolun = driver.find_element_by_xpath("//*[@id='app']/div[1]/div[1]/div[2]/div/div/div[2]/h4[2]/span").text过滤非全角空格非数字,可以吗
时间: 2023-05-25 09:01:10 浏览: 95
非全角空格非数字的过滤是可行的,我们可以使用正则表达式来实现。以下是一段 Python 代码示例:
import re
text = ' 123 456 789 '
filtered_text = re.sub(r'[^\uFF10-\uFF19\uFF21-\uFF3A\uFF41-\uFF5A]', '', text)
print(filtered_text)
输出结果应当为:
123456789
这里使用了 Unicode 编码范围来表示全角数字和字母,请注意其中的 `\u` 符号表示后面所跟的字符是一个 Unicode 编码。
相关问题
for li in title_list: title = li.xpath('//*[@class="l3 a3"]/a/text()')[0] yuedu = li.xpath('//span[1]/text()')[0] 添加代码把title和yuedu存入csv文件
好的,以下是将title和yuedu存入csv文件的Python代码:
```python
import csv
# 假设title_list是一个包含多个li元素的列表
with open('data.csv', 'w', newline='', encoding='utf-8') as csvfile:
writer = csv.writer(csvfile)
writer.writerow(['title', 'yuedu']) # 写入表头
for li in title_list:
title = li.xpath('//*[@class="l3 a3"]/a/text()')[0]
yuedu = li.xpath('//span[1]/text()')[0]
writer.writerow([title, yuedu]) # 写入一行数据
```
这段代码会将数据存储到名为"data.csv"的文件中,每一行包含一个title和一个yuedu。注意,如果文件已经存在,这段代码会覆盖原有的内容。如果要追加数据,可以将文件打开方式设置为"a"(即append):
```python
with open('data.csv', 'a', newline='', encoding='utf-8') as csvfile:
writer = csv.writer(csvfile)
for li in title_list:
# ...
```
爬取这个网站https://yuedu.163.com/book/rank/sell/week/p1/s20所有数据的代码
以下是使用 Python 3 爬取 https://yuedu.163.com/book/rank/sell/week/p1/s20 所有数据的代码:
```python
import requests
from bs4 import BeautifulSoup
url = 'https://yuedu.163.com/book/rank/sell/week/p1/s20'
response = requests.get(url)
soup = BeautifulSoup(response.text, 'html.parser')
books = soup.find_all('div', {'class': 'book-info'})
for book in books:
title = book.find('h3').text.strip()
author = book.find('p', {'class': 'author'}).text.strip()
category = book.find('p', {'class': 'category'}).text.strip()
description = book.find('p', {'class': 'desc'}).text.strip()
print(title)
print(author)
print(category)
print(description)
print('-' * 50)
```
该代码通过 requests 库向网站发送 GET 请求,获取网站内容。然后使用 BeautifulSoup 库解析网站内容,获取所有书籍的信息。最后,将每本书籍的标题、作者、分类和描述打印出来。
注意,该代码只能爬取第一页的数据。如果需要爬取更多页面的数据,可以修改 URL 中的页码参数。
阅读全文