首页（1）爬取http://www.ptpress.com.cn/的新闻的信息。（2）将爬取到的数据存储到MongoDB数据库中。

（1）爬取http://www.ptpress.com.cn/的新闻的信息。（2）将爬取到的数据存储到MongoDB数据库中。

时间: 2024-11-06 11:15:39 浏览: 5

python3 实现爬取TOP500的音乐信息并存储到mongoDB数据库中

爬取TOP500的音乐信息，包括排名情况、歌曲名、歌曲时间。网页版酷狗不能手动翻页进行下一步的浏览，仔细观察第一页的URL： http://www.kugou.com/yy/rank/home/1-8888.html 这里尝试将1改为2，再进行浏览，恰好是第二页的信息，再改为3，恰好是第三页的信息，多次尝试发现不同的数字即为不同的页面。因此只需更改home/后面的数字即可。由于每页显示的为22首歌曲，所以总共需要23个URL。 import requests from bs4 import BeautifulSoup from time import sleep import pymong

（1）爬取`http://www.ptpress.com.cn/`网站的新闻信息通常涉及到网络爬虫技术。首先，你需要使用像Python的`requests`库来发送HTTP请求获取网页内容。然后，可以利用如BeautifulSoup或lxml等HTML解析库解析HTML文档，找到包含新闻标题、链接和时间等信息的部分。例如： ```python import requests from bs4 import BeautifulSoup url = "http://www.ptpress.com.cn/" response = requests.get(url) soup = BeautifulSoup(response.text, 'html.parser') news_blocks = soup.find_all('div', class_='news-item') # 假设新闻信息在class为'news-item'的div元素中 for news_block in news_blocks: title = news_block.find('h2').text # 查找标题 link = news_block.find('a')['href'] # 查找链接 date = news_block.find('span', class_='pub-time').text # 查找发布时间 # 进行进一步处理，如清洗数据后保存 ``` （2）将爬取到的数据存储到MongoDB中，你需要安装pymongo库，并建立连接到MongoDB服务器。每条新闻数据可以作为一个文档，结构化后放入相应的集合（collection）中。示例代码如下： ```python from pymongo import MongoClient client = MongoClient('mongodb://localhost:27017/') # 连接到本地MongoDB db = client['your_database_name'] # 假设数据库名为'your_database_name' news_collection = db['news'] for item in data: # 将每个news_item替换为之前提取的数据 news_collection.insert_one(item) # 插入文档 ```

阅读全文