用正则表达式获取济南市链家网总网页数
时间: 2024-01-27 20:24:28 浏览: 18
以下是一个使用正则表达式获取济南市链家网租房信息总页数的示例代码:
```python
import requests
import re
url = 'https://jn.lianjia.com/zufang/pg1/#contentList'
headers = {
'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.36 Edge/16.16299'
}
# 获取总页数
response = requests.get(url, headers=headers)
html = response.text
total_page = re.search(r'data-totalpage="(\d+)"', html).group(1)
print(total_page)
```
这个示例代码可以获取济南市链家网租房信息的总页数。你可以根据自己的需要修改代码,提取其他信息。
相关问题
python正则表达式获取网页信息举例
以下是一个使用 Python 正则表达式获取网页信息的示例:
```python
import re
import requests
# 指定目标网页的URL
url = 'http://example.com'
# 发送HTTP GET请求并获取响应内容
response = requests.get(url)
html = response.text
# 使用正则表达式提取信息
pattern = r'<title>(.*?)</title>'
match = re.search(pattern, html)
# 如果匹配成功
if match:
title = match.group(1)
print('网页标题:', title)
else:
print('未找到标题')
```
在上述示例中,我们使用了 requests 库发送 HTTP GET 请求并获取了网页的 HTML 内容。然后,我们使用 re 模块中的 search() 函数来搜索符合指定正则表达式模式的内容。在这个示例中,我们使用了一个简单的正则表达式模式来提取网页标题,即 `<title>` 标签中的内容。如果匹配成功,我们可以通过 group() 方法获取匹配到的内容。
需要注意的是,正则表达式在处理 HTML 或其他复杂结构的文本时可能不够灵活和健壮。在实际应用中,更推荐使用专门的 HTML 解析库(如 BeautifulSoup)来处理网页内容,因为这些库提供了更高级的功能和更简洁的语法来提取信息。
希望以上示例能帮助您理解如何使用正则表达式获取网页信息!如果您有任何其他问题,请随时提问。
python使用正则表达式获取img标签
在Python中使用正则表达式获取img标签可以使用re模块来实现。首先,我们需要导入re模块:
import re
然后,我们可以使用re.findall()函数来匹配并获取所有的img标签。正则表达式可以使用"(<img.*?>)"来匹配img标签,其中.*?表示匹配任意字符(除了换行符)的0个或多个,并且使用?表示非贪婪匹配。完整的代码如下:
import re
html = "<img src='image1.jpg'><img src='image2.jpg'><img src='image3.jpg'>"
img_tags = re.findall("(<img.*?>)", html)
for tag in img_tags:
print(tag)
运行代码后,会输出匹配到的所有img标签:
<img src='image1.jpg'>
<img src='image2.jpg'>
<img src='image3.jpg'>
这样,我们就成功使用正则表达式获取了img标签。如果需要获取img标签中的具体属性值,可以进一步使用正则表达式提取。例如,可以使用re.findall("src=['\"](.*?)['\"]", tag)来提取img标签中的src属性值。