(1)爬取http://www.ptpress.com.cn/的新闻的信息。(2)将爬取到的数据存储到MongoDB数据库中。
时间: 2024-11-06 11:15:39 浏览: 5
python3 实现爬取TOP500的音乐信息并存储到mongoDB数据库中
(1)爬取`http://www.ptpress.com.cn/`网站的新闻信息通常涉及到网络爬虫技术。首先,你需要使用像Python的`requests`库来发送HTTP请求获取网页内容。然后,可以利用如BeautifulSoup或lxml等HTML解析库解析HTML文档,找到包含新闻标题、链接和时间等信息的部分。例如:
```python
import requests
from bs4 import BeautifulSoup
url = "http://www.ptpress.com.cn/"
response = requests.get(url)
soup = BeautifulSoup(response.text, 'html.parser')
news_blocks = soup.find_all('div', class_='news-item') # 假设新闻信息在class为'news-item'的div元素中
for news_block in news_blocks:
title = news_block.find('h2').text # 查找标题
link = news_block.find('a')['href'] # 查找链接
date = news_block.find('span', class_='pub-time').text # 查找发布时间
# 进行进一步处理,如清洗数据后保存
```
(2)将爬取到的数据存储到MongoDB中,你需要安装pymongo库,并建立连接到MongoDB服务器。每条新闻数据可以作为一个文档,结构化后放入相应的集合(collection)中。示例代码如下:
```python
from pymongo import MongoClient
client = MongoClient('mongodb://localhost:27017/') # 连接到本地MongoDB
db = client['your_database_name'] # 假设数据库名为'your_database_name'
news_collection = db['news']
for item in data: # 将每个news_item替换为之前提取的数据
news_collection.insert_one(item) # 插入文档
```
阅读全文