python beautiful soup提取正文
时间: 2023-07-22 22:53:56 浏览: 149
beautifulsoup for python
使用BeautifulSoup提取正文的一般步骤如下:
1. 使用requests库获取网页源代码;
2. 使用BeautifulSoup库解析源代码;
3. 找到包含正文的HTML元素,并提取其中的文本内容。
下面是一个示例代码,可以提取新闻网站的正文:
```python
import requests
from bs4 import BeautifulSoup
# 获取网页源代码
url = 'https://news.sina.com.cn/c/2020-11-02/doc-iiznctkc1326507.shtml'
res = requests.get(url)
html = res.text
# 解析源代码
soup = BeautifulSoup(html, 'html.parser')
# 找到正文元素,并提取文本内容
article = soup.find('div', class_='article')
content = article.get_text()
print(content)
```
需要注意的是,不同的网站正文元素的标签和属性可能不同,需要根据实际情况进行调整。
阅读全文