正则去掉所有html 标签
时间: 2023-07-05 17:21:44 浏览: 209
可以使用正则表达式来去除 HTML 标签。以下是一个简单的正则表达式,可以匹配所有 HTML 标签并将其删除:
```python
import re
def remove_tags(text):
return re.sub(r'<[^>]*?>', '', text)
```
通过调用 remove_tags() 函数,并传递包含 HTML 标签的文本作为参数,可以删除所有 HTML 标签。例如:
```python
text_with_tags = '<p>Hello, <strong>world!</strong></p>'
text_without_tags = remove_tags(text_with_tags)
print(text_without_tags) # 输出: Hello, world!
```
这个函数会使用正则表达式 r'<[^>]*?>' 匹配所有 HTML 标签,并将其替换为空字符串,从而实现去除 HTML 标签的功能。
相关问题
python正则去除所有html标签只保留内容
可以使用Python中的re模块和正则表达式来去除HTML标签,只保留内容。具体方法如下:
```python
import re
def remove_html_tags(html):
# 定义正则表达式
pattern = re.compile(r'<[^>]+>')
# 去除HTML标签
result = pattern.sub('', html)
# 返回结果
return result
```
`remove_html_tags`函数接收一个包含HTML标签的字符串作为参数,使用正则表达式去除所有HTML标签并返回结果。在正则表达式中,`<[^>]+>`代表匹配所有的HTML标签。`sub`方法可以将匹配到的内容替换为空字符串,即去除HTML标签。
python正则去除所有html标签只保留内容写入到csv
可以使用Python中的re模块和csv模块来实现这个功能。
首先,我们需要读取HTML文件并使用正则表达式删除所有HTML标签。然后,我们将清理后的文本写入CSV文件中。
下面是一个示例代码:
```python
import re
import csv
# 读取HTML文件
with open('example.html', 'r', encoding='utf-8') as f:
html_text = f.read()
# 删除HTML标签
clean_text = re.sub('<.*?>', '', html_text)
# 将清理后的文本写入CSV文件中
with open('example.csv', 'w', newline='', encoding='utf-8') as f:
writer = csv.writer(f)
writer.writerow(['Content'])
writer.writerow([clean_text])
```
在这个例子中,我们首先使用`open()`函数打开HTML文件并使用`read()`方法读取其内容。然后,我们使用`re.sub()`函数和正则表达式`'<.*?>'`删除所有HTML标签。
最后,我们使用`csv.writer()`函数将清理后的文本写入CSV文件中,其中`writerow()`函数用于写入一行数据,`newline=''`参数用于避免在Windows系统上出现多余的空行。