python爬取人民网标题和链接并存在数据库中
时间: 2024-01-14 19:04:21 浏览: 69
好的,以下是Python爬取人民网标题和链接并存在数据库中的代码示例:
```python
import requests
from bs4 import BeautifulSoup
import pymysql
# 请求人民网国内新闻页面
url = 'http://world.people.com.cn/GB/1015/index1.html'
r = requests.get(url)
# 解析HTML页面
soup = BeautifulSoup(r.content, 'html.parser')
# 获取新闻标题和链接
news_list = soup.find_all('div', class_='title')
title_list = [n.find('a').get_text() for n in news_list]
link_list = [n.find('a').get('href') for n in news_list]
# 将数据存入数据库
db = pymysql.connect(host='localhost', user='root', password='password', database='news')
cursor = db.cursor()
for i in range(len(title_list)):
sql = "INSERT INTO news (title, link) VALUES (%s, %s)"
val = (title_list[i], link_list[i])
cursor.execute(sql, val)
db.commit()
db.close()
```
在这个示例中,我们首先使用requests库请求人民网国内新闻页面,并用BeautifulSoup库解析HTML页面。我们使用find_all()方法查找所有的新闻标题和链接,并将它们分别存储在title_list和link_list中。然后,我们使用pymysql库将这些数据存入MySQL数据库中。这里我们假设已经创建了一个名为news的数据库,并在其中创建了一个名为news的表,该表包含两列:title和link。你需要根据自己的实际情况修改数据库连接信息和表结构。
阅读全文