python 正在表达式获取:class="color">6,753< 中的6,753
时间: 2024-03-31 15:33:53 浏览: 16
你可以使用正则表达式来获取该字符串中的数字。以下是一个示例代码:
```python
import re
string = 'class="color">6,753<'
match = re.search(r'\d[\d,]*', string)
if match:
number = match.group(0).replace(',', '')
print(number)
else:
print('No match found.')
```
输出:
```
6753
```
这个正则表达式会匹配一个数字,该数字可能包含逗号。然后我们使用 `replace()` 方法将逗号从数字中删除。
相关问题
python 正在表达式获取<li>共 <span class="color">6,753</span> 条记录</li>中的6,753
同样可以使用正则表达式来提取这个字符串中的数字`6,753`。具体来说,可以先匹配`<li>`标签和`</li>`标签之间的内容,然后再从中提取数字部分。示例如下:
```python
import re
s = '<li>共 <span class="color">6,753</span> 条记录</li>'
match = re.search(r'<li>.*?<span.*?>([\d,]+)</span>.*?</li>', s)
if match:
num_str = match.group(1)
num = int(num_str.replace(',', ''))
print(num) # 输出6,753
else:
print('未找到匹配的字符串')
```
解释一下正则表达式的含义:
- `<li>`:匹配`<li>`标签;
- `.*?`:匹配任意字符,非贪婪模式,即尽可能少地匹配;
- `<span.*?>`:匹配`<span>`标签,其中`.*?`表示匹配`<span>`标签中的任意属性;
- `([\d,]+)`:匹配数字和逗号,其中`[\d,]`表示数字和逗号的字符集,`+`表示匹配一个或多个字符,并将其保存在分组中;
- `</span>`:匹配`</span>`标签;
- `.*?`:同上;
- `</li>`:匹配`</li>`标签。
python 正在表达式获取<li>共 <span class="color">6,753</span> 条记录</li>中的6
可以使用正则表达式来提取这个字符串中的数字6。具体来说,可以先匹配`<li>`标签和`</li>`标签之间的内容,然后再从中提取数字部分。示例如下:
```python
import re
s = '<li>共 <span class="color">6,753</span> 条记录</li>'
match = re.search(r'<li>.*?([\d,]+).*?</li>', s)
if match:
num_str = match.group(1)
num = int(num_str.replace(',', ''))
print(num) # 输出6,753对应的数字6,753
else:
print('未找到匹配的字符串')
```
相关推荐
![pdf](https://img-home.csdnimg.cn/images/20210720083512.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
import requests import re headers = {'User-Agent':'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/84.0.4147.105 Safari/537.36'} def baidu(page): num = (page - 1) * 10 url = 'http://www.baidu.com/s?ie=utf-8&medium=0&rtt=1&bsst=1&rsv_dl=news_b_pn&cl=2&wd=meizu&tn=news&rsv_bp=1&rsv_sug3=16&rsv_sug1=6&rsv_sug7=100&oq=&rsv_btype=t&f=8&inputT=5752&rsv_sug4=6599&x_bfe_rqs=032000000000000000004800000000000000000000000008&x_bfe_tjscore=0.080000&tngroupname=organic_news&newVideo=12&goods_entry_switch=1&pn='+ str(num) res = requests.get(url, headers=headers).text baidu(i+1) print("第"+str(i+1)+"页爬取成功") import re p_title = '}">(.*?)
(.*?)<span ' #提取时间 info=re.findall(p_info,res,re.S) print(info) p_href= '<a class="source-link_Ft1ov" href="(.*?)"' #提取网址 href=re.findall(p_href,res,re.S) print(href) p_souce='<span class="c-color-gray" aria-label=".*?">(.*?)</span>' #提取来源 souce=re.findall(p_souce,res,re.S) print(souce) for i in range(len(title)): title[i]=re.sub('<.*?>','',title[i]) #去掉、 print(str(i+1)+"."+title[i]+' ('+info[i]+"-"+souce[i]+')') print(" ",href[i])![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)