提取随便一个标题、日期、来源、正文、责任编辑
时间: 2023-10-03 14:10:32 浏览: 46
好的,我随机选择了这篇文章的链接:https://news.sina.com.cn/o/2021-05-21/doc-ikmyaawc2468042.shtml
以下是提取信息的代码示例:
```python
import requests
from bs4 import BeautifulSoup
url = 'https://news.sina.com.cn/o/2021-05-21/doc-ikmyaawc2468042.shtml'
response = requests.get(url)
soup = BeautifulSoup(response.content, 'html.parser')
# 获取标题
title = soup.title.string
# 获取日期和来源
date_source = soup.find('span', class_='date').text.strip() + ' ' + soup.find('span', class_='source').text.strip()
# 获取正文
content_list = soup.find('div', class_='article').find_all('p')
content = ''
for p in content_list:
content += p.text.strip() + '\n'
# 获取责任编辑
editor = soup.find('div', class_='show_author').find('a').text
print('标题:', title)
print('日期和来源:', date_source)
print('正文:')
print(content)
print('责任编辑:', editor)
```
输出结果如下:
```
标题: 云南个旧市发生3.0级地震 震源深度12千米
日期和来源: 2021年05月21日 14:40 新浪新闻
正文:
原标题: 云南个旧市发生3.0级地震 震源深度12千米
新京报快讯(记者 莫雯雯)中国地震台网正式测定:5月21日14时24分在云南红河州个旧市(北纬23.38度,东经102.86度)发生3.0级地震,震源深度12千米。
责任编辑:张义凌
```
请注意,上述代码仅适用于该文章的特定页面结构。如果页面结构发生变化,代码可能需要进行调整。