找出该网站https://www.bernama.com/bm/index.php的内容,并爬取文字部分并分别保存到txt中
时间: 2023-12-15 11:05:41 浏览: 67
为了爬取 https://www.bernama.com/bm/index.php 网站的文字部分并分别保存到txt文件中,您可以使用以下代码:
```python
import requests
from bs4 import BeautifulSoup
import os
# 请求网页
url = "https://www.bernama.com/bm/index.php"
res = requests.get(url)
soup = BeautifulSoup(res.text, "html.parser")
# 获取需要写入的文本内容
text = soup.find("div", {"class": "home_news_list"}).text
# 保存到txt文件
filename = "output.txt"
with open(filename, "w", encoding="utf-8") as f:
f.write(text)
print("Text saved successfully.")
```
这段代码先请求网页并使用 BeautifulSoup 将其解析为 BeautifulSoup 对象。然后使用 `.find()` 方法找到 `div` 标签,并指定 `class` 属性为 `"home_news_list"`,这是该网站文字内容的所在位置。最后将获取到的文本内容保存到 `output.txt` 文件中。
相关问题
爬取这个网站不同页面的信息https://www.bernama.com/bm/am/news.php?id=2194049
好的,您想要获取网站 https://www.bernama.com/bm/am/news.php?id=2194049 不同页面的信息,您可以使用 Python 中的 requests 库和 BeautifulSoup 库来实现。首先,您需要使用 requests 库从网站上获取 HTML 页面的内容,然后使用 BeautifulSoup 库进行 HTML 解析,最后获取您需要的信息。
以下是示例代码:
```python
import requests
from bs4 import BeautifulSoup
# 定义获取页面信息的函数
def get_page_info(url):
# 发送 GET 请求获取 HTML 页面内容
response = requests.get(url)
# 将 HTML 页面内容解析为 BeautifulSoup 对象
soup = BeautifulSoup(response.text, 'html.parser')
# 获取页面信息
title = soup.select_one('h1').text.strip()
date = soup.select_one('.date').text.strip()
content = soup.select_one('.news-body').text.strip()
# 返回页面信息
return {'title': title, 'date': date, 'content': content}
# 测试函数
url = 'https://www.bernama.com/bm/am/news.php?id=2194049'
page_info = get_page_info(url)
print(page_info)
```
在以上示例代码中,我们首先定义了一个名为 `get_page_info` 的函数,该函数接受一个 URL 参数,并返回一个包含页面信息的字典。在函数内部,我们使用 requests 库向该 URL 发送 GET 请求,获取 HTML 页面的内容。然后,我们使用 BeautifulSoup 库将 HTML 页面内容解析为一个 BeautifulSoup 对象。接下来,我们使用 CSS 选择器获取页面信息,并将其保存在一个字典中,最后返回该字典。
最后,我们测试了该函数,并打印了函数返回的页面信息。您可以将上述代码复制到 Python 编辑器中运行,以获取您需要的页面信息。
爬取网站https://www.bernama.com/en/每个页面的数据下载为txt
很抱歉,作为一个语言模型 AI,我无法直接执行网络爬虫的操作。不过,您可以使用 Python 的 requests 库和 BeautifulSoup 库来爬取网站上的数据并将其保存为 txt 文件。
下面是一个简单的示例代码,可以爬取 https://www.bernama.com/en/ 的新闻标题和内容,并将其保存为 txt 文件:
```python
import requests
from bs4 import BeautifulSoup
# 打开网页并获取 HTML 内容
url = "https://www.bernama.com/en/"
response = requests.get(url)
html_content = response.text
# 解析 HTML 内容,获取新闻标题和内容
soup = BeautifulSoup(html_content, "html.parser")
news_list = soup.find_all("div", class_="row news-row")
for news in news_list:
title = news.find("a").text.strip()
link = news.find("a")["href"]
news_response = requests.get(link)
news_html = news_response.text
news_soup = BeautifulSoup(news_html, "html.parser")
content_list = news_soup.find_all("div", class_="col-md-12 news-body")
content = "\n".join([p.text for p in content_list[0].find_all("p")])
# 将新闻标题和内容保存到 txt 文件
with open(f"{title}.txt", "w") as f:
f.write(f"Title: {title}\n")
f.write(f"Link: {link}\n")
f.write(f"Content:\n{content}\n")
```
请注意,爬取网站的数据可能涉及法律和道德问题,请遵守当地的法律法规和道德准则。同时,也要尊重网站的隐私政策和使用条款。
阅读全文