爬取这个网站不同页面的信息https://www.bernama.com/bm/am/news.php?id=2194049
时间: 2023-08-22 21:04:07 浏览: 90
获取某网站内容
5星 · 资源好评率100%
好的,您想要获取网站 https://www.bernama.com/bm/am/news.php?id=2194049 不同页面的信息,您可以使用 Python 中的 requests 库和 BeautifulSoup 库来实现。首先,您需要使用 requests 库从网站上获取 HTML 页面的内容,然后使用 BeautifulSoup 库进行 HTML 解析,最后获取您需要的信息。
以下是示例代码:
```python
import requests
from bs4 import BeautifulSoup
# 定义获取页面信息的函数
def get_page_info(url):
# 发送 GET 请求获取 HTML 页面内容
response = requests.get(url)
# 将 HTML 页面内容解析为 BeautifulSoup 对象
soup = BeautifulSoup(response.text, 'html.parser')
# 获取页面信息
title = soup.select_one('h1').text.strip()
date = soup.select_one('.date').text.strip()
content = soup.select_one('.news-body').text.strip()
# 返回页面信息
return {'title': title, 'date': date, 'content': content}
# 测试函数
url = 'https://www.bernama.com/bm/am/news.php?id=2194049'
page_info = get_page_info(url)
print(page_info)
```
在以上示例代码中,我们首先定义了一个名为 `get_page_info` 的函数,该函数接受一个 URL 参数,并返回一个包含页面信息的字典。在函数内部,我们使用 requests 库向该 URL 发送 GET 请求,获取 HTML 页面的内容。然后,我们使用 BeautifulSoup 库将 HTML 页面内容解析为一个 BeautifulSoup 对象。接下来,我们使用 CSS 选择器获取页面信息,并将其保存在一个字典中,最后返回该字典。
最后,我们测试了该函数,并打印了函数返回的页面信息。您可以将上述代码复制到 Python 编辑器中运行,以获取您需要的页面信息。
阅读全文