豆瓣电影top250爬虫保存
时间: 2023-10-24 10:04:56 浏览: 91
python爬虫豆瓣电影Top250数据分析与可视化(应用Flask框架、Echarts、WordCloud等技术).zip
为了爬取豆瓣电影Top250并保存数据,可以使用Python爬虫和数据库存储。以下是一个简单的爬虫实现步骤:
1. 使用Python的requests和BeautifulSoup库访问豆瓣电影Top250页面并解析HTML代码。
2. 从页面中提取电影的名称、评分、导演、演员、年份、国家、分类、简介等信息。
3. 将提取的电影信息存储到数据库中。
以下是一个简单的爬虫代码示例:
```python
import requests
from bs4 import BeautifulSoup
import sqlite3
# 访问豆瓣电影Top250页面
url = 'https://movie.douban.com/top250'
response = requests.get(url)
# 解析HTML代码
soup = BeautifulSoup(response.text, 'html.parser')
# 提取电影信息
movies = []
for movie in soup.find_all('div', class_='item'):
title = movie.find('span', class_='title').text
rating = movie.find('span', class_='rating_num').text
director = movie.find('p', class_='').text.split('\n')[1].split(':')[1].strip()
actors = movie.find('p', class_='').text.split('\n')[2].split(':')[1].strip()
year = movie.find('p', class_='').text.split('\n')[0].split('\xa0/\xa0')[0]
country = movie.find('p', class_='').text.split('\n')[0].split('\xa0/\xa0')[1]
genres = movie.find('p', class_='').text.split('\n')[1].split(':')[1].strip()
summary = movie.find('span', class_='inq').text
movies.append((title, rating, director, actors, year, country, genres, summary))
# 存储电影信息到数据库
conn = sqlite3.connect('movies.db')
c = conn.cursor()
c.execute('''CREATE TABLE IF NOT EXISTS movies
(title TEXT, rating TEXT, director TEXT, actors TEXT, year TEXT, country TEXT, genres TEXT, summary TEXT)''')
c.executemany('INSERT INTO movies VALUES (?,?,?,?,?,?,?,?)', movies)
conn.commit()
conn.close()
```
该示例代码将电影信息存储到了SQLite数据库中,并创建了一个movies表存储电影信息。你可以根据需要修改代码,以适应不同的需求。
阅读全文