用python3.9版本下编程将所输入的网站进行数据爬取(例如标题与链接),并将所爬取到的内容存入数据库中
时间: 2024-02-09 13:07:17 浏览: 75
python 爬取网页上的相关内容,下载到本地,并生成excel
好的,为了实现这个功能,我们需要使用 Python 中的 requests 和 BeautifulSoup 库进行网页的请求和解析,以及使用 Python 中的 sqlite3 库进行数据库的连接和操作。下面是一个简单的实现过程:
1. 安装需要的库
```python
pip install requests beautifulsoup4 sqlite3
```
2. 导入需要的库
```python
import requests
from bs4 import BeautifulSoup
import sqlite3
```
3. 定义需要爬取的网页链接
```python
url = 'https://www.example.com'
```
4. 发送网页请求,获取网页内容
```python
response = requests.get(url)
```
5. 解析网页内容,获取需要的信息
```python
soup = BeautifulSoup(response.content, 'html.parser')
titles = soup.find_all('h2')
links = soup.find_all('a', href=True)
```
6. 连接数据库并创建数据表
```python
conn = sqlite3.connect('example.db')
c = conn.cursor()
c.execute('''CREATE TABLE IF NOT EXISTS articles
(id INTEGER PRIMARY KEY AUTOINCREMENT,
title TEXT,
link TEXT)''')
```
7. 将获取到的信息存入数据库
```python
for i in range(len(titles)):
title = titles[i].get_text().strip()
link = links[i]['href'].strip()
c.execute("INSERT INTO articles (title, link) VALUES (?, ?)", (title, link))
conn.commit()
```
完整代码如下:
阅读全文