网页爬虫并导入数据库完整代码
时间: 2024-10-24 22:09:22 浏览: 26
基于网络爬虫爬取药源网药物数据python源码+项目说明(搭建药品数据库,含中成药和化学药品信息共计10万余条).zip
网页爬虫通常是一个涉及网络请求、HTML解析和数据存储的过程。这里提供一个简单的Python爬虫示例,使用BeautifulSoup库解析HTML内容,并将数据导入SQLite数据库:
```python
import requests
from bs4 import BeautifulSoup
import sqlite3
# 创建数据库连接
conn = sqlite3.connect('my_database.db')
c = conn.cursor()
# 创建表,如果不存在
c.execute('''CREATE TABLE IF NOT EXISTS data
(title TEXT, link TEXT)''')
def scrape(url):
response = requests.get(url)
soup = BeautifulSoup(response.text, 'html.parser')
# 根据实际网页结构提取数据
titles = soup.find_all('h2') # 这里假设标题在h2标签内
for title in titles:
href = title.find('a')['href']
c.execute("INSERT INTO data VALUES (?, ?)", (title.text, href))
# 提交事务并关闭连接
conn.commit()
conn.close()
# 调用函数开始爬取
scrape('http://example.com') # 替换为你想要爬取的网址
阅读全文