python爬取新闻存入数据库
时间: 2023-07-28 17:00:14 浏览: 59
好的,我可以给你提供一个简单的Python爬虫示例,用于从新闻网站中爬取新闻,并将其存储到数据库中。这个例子使用了BeautifulSoup库来解析HTML页面,使用了SQLite数据库来存储数据。这里是代码示例:
```python
import requests
from bs4 import BeautifulSoup
import sqlite3
# 定义要爬取的新闻网站的URL
url = 'http://www.example.com/news'
# 发送HTTP请求并获取响应
response = requests.get(url)
# 使用BeautifulSoup解析HTML页面
soup = BeautifulSoup(response.content, 'html.parser')
# 找到新闻文章的列表
articles = soup.find_all('div', {'class': 'article'})
# 连接到SQLite数据库
conn = sqlite3.connect('news.db')
# 创建一个游标对象
cursor = conn.cursor()
# 循环遍历每篇新闻文章
for article in articles:
# 获取新闻标题和内容
title = article.find('h2').text.strip()
content = article.find('div', {'class': 'content'}).text.strip()
# 将新闻标题和内容插入到数据库中
cursor.execute('INSERT INTO news (title, content) VALUES (?, ?)', (title, content))
conn.commit()
# 关闭游标和数据库连接
cursor.close()
conn.close()
```
在这个示例中,我们首先定义要爬取的新闻网站的URL,并使用requests库发送HTTP请求并获取响应。然后,我们使用BeautifulSoup库解析HTML页面,并找到新闻文章的列表。接下来,我们连接到SQLite数据库,并循环遍历每篇新闻文章。我们获取新闻标题和内容,并将它们插入到数据库中。最后,我们关闭游标和数据库连接。
请注意,这只是一个简单的示例,实际应用中可能需要更复杂的爬虫和数据库架构。同时,也要注意遵守网站的使用条款和法律法规,以确保合法合规。