用python编程将所输入的网站进行数据爬取(例如标题与链接),并将所爬取到的内容存入数据库中
时间: 2024-04-02 11:37:26 浏览: 17
python 爬取网页上的相关内容,下载到本地,并生成excel
好的,可以使用Python中的requests和beautifulsoup库来实现网站数据的爬取,同时使用sqlite3库来实现数据的存储。
以下是一个简单的示例代码,可以帮助你完成网站数据爬取和存储:
```python
import requests
from bs4 import BeautifulSoup
import sqlite3
# 网站链接
url = 'https://www.example.com'
# 发送请求
response = requests.get(url)
# 解析网页内容
soup = BeautifulSoup(response.content, 'html.parser')
# 获取标题和链接
titles = [title.text for title in soup.find_all('a')]
links = [link.get('href') for link in soup.find_all('a')]
# 存储到数据库中
conn = sqlite3.connect('data.db')
c = conn.cursor()
# 创建表格
c.execute('''CREATE TABLE IF NOT EXISTS website_data
(title text, link text)''')
# 插入数据
for i in range(len(titles)):
c.execute("INSERT INTO website_data VALUES (?, ?)", (titles[i], links[i]))
# 提交更改并关闭连接
conn.commit()
conn.close()
```
在上述代码中,我们首先使用requests库发送了一个GET请求来获取网站的内容,然后使用beautifulsoup库解析网页内容,获取了标题和链接。接着,我们使用sqlite3库连接到一个名为"data.db"的数据库,并创建了一个名为"website_data"的表格。最后,我们使用循环将所有的标题和链接插入到表格中,并提交更改并关闭连接。
当你运行这段代码后,你可以在"data.db"数据库中找到一个名为"website_data"的表格,并查看其中的数据。
阅读全文