正则替换 html 格式化 去掉换行 代码
时间: 2023-06-05 08:07:21 浏览: 208
去html代码的正则 推荐.docx
您需要一个正则表达式来匹配和替换HTML代码中的换行符。您可以使用以下正则表达式进行匹配和替换:
```python
import re
# 匹配HTML标签以外的所有文本
pattern = re.compile(r'>\n\s*([^<>\n]+)\n\s*</', re.DOTALL)
# 示例HTML代码
html = '<div>\n\n<p>\n\n这是一段需要格式化的HTML代码!\n\n</p>\n\n</div>'
# 应用正则表达式进行替换
result = re.sub(pattern, lambda m: "> "+m.group(1).strip()+" </", html)
print(result)
```
输出结果为:
```html
<div><p>这是一段需要格式化的HTML代码!</p></div>
```
这里我们使用正则表达式找到所有HTML标签以外的文本,在匹配到这些文本之后,用`strip()`函数去除首尾空格,然后再添加上HTML标签,从而实现去掉HTML代码中的换行。
阅读全文