爬取金融新闻数据具体代码
时间: 2023-06-20 22:04:12 浏览: 115
对新闻内容进行采集代码
以下是一个简单的 Python 爬取金融新闻数据的代码示例。在这个示例中,我们使用 requests 库获取网页内容,使用 BeautifulSoup 库解析 HTML 标签,并使用 Pandas 库将数据存储到 CSV 文件中。
```python
import requests
from bs4 import BeautifulSoup
import pandas as pd
# 定义要爬取的新闻网站的 URL
url = 'https://www.cnbc.com/finance/'
# 发送请求获取网页内容
response = requests.get(url)
# 解析 HTML 标签
soup = BeautifulSoup(response.content, 'html.parser')
articles = soup.find_all('div', {'class': 'Card-titleContainer'})
# 遍历解析后的标签,提取新闻标题和链接
titles = []
links = []
for article in articles:
title = article.find('a').text.strip()
link = article.find('a')['href']
titles.append(title)
links.append(link)
# 将数据存储到 CSV 文件中
df = pd.DataFrame({
'title': titles,
'link': links
})
df.to_csv('news.csv', index=False)
```
这个示例代码中,我们以 CNBC 金融新闻网站为例,使用 requests 库发送 GET 请求获取网页内容,然后使用 BeautifulSoup 库解析 HTML 标签,提取新闻标题和链接。最后,使用 Pandas 库将数据存储到 CSV 文件中。你可以根据自己需要修改这个代码,爬取其他金融新闻网站的数据。
阅读全文