用python爬取http://www.stats.gov.cn/sj/tjgb/rkpcgb/qgrkpcgb/202302/t20230206_1902008.htmll的数据并放入数据库
时间: 2023-07-09 17:55:31 浏览: 224
python爬取的数据库文件。
5星 · 资源好评率100%
好的,我可以帮你回答这个问题。首先,你需要使用Python中的requests模块来发送HTTP请求,获取该网页的HTML源代码。然后使用BeautifulSoup模块解析HTML源代码,找到需要的数据。最后,将数据存入数据库中。
以下是一个简单的代码示例:
```python
import requests
from bs4 import BeautifulSoup
import sqlite3
# 发送HTTP请求,获取HTML源代码
url = 'http://www.stats.gov.cn/sj/tjgb/rkpcgb/qgrkpcgb/202302/t20230206_1902008.html'
response = requests.get(url)
html = response.content
# 解析HTML源代码,找到需要的数据
soup = BeautifulSoup(html, 'html.parser')
table = soup.find('table', attrs={'class': 'MsoNormalTable'})
rows = table.find_all('tr')[1:]
data = []
for row in rows:
cols = row.find_all('td')
row_data = [col.text.strip() for col in cols]
data.append(row_data)
# 存入数据库
conn = sqlite3.connect('data.db')
c = conn.cursor()
c.execute('CREATE TABLE IF NOT EXISTS population (region TEXT, population INTEGER)')
for row_data in data:
region, population = row_data
c.execute('INSERT INTO population VALUES (?, ?)', (region, int(population.replace(',', ''))))
conn.commit()
conn.close()
```
这个代码示例使用了requests模块发送HTTP请求,BeautifulSoup模块解析HTML源代码,以及sqlite3模块存储数据到SQLite数据库中。你需要安装这几个模块才能运行这个代码示例。
阅读全文