爬取猫眼电影Top100电影单页数据,解析出电影名称、主演、上映时间、评分、图片地址等信息。最后存储数据到MySQL数据库中
时间: 2024-09-19 17:06:14 浏览: 113
爬取猫眼电影Top100电影单页数据并解析所需信息的过程通常涉及以下几个步骤:
1. **网络请求**: 首先,你需要使用Python的requests库或者像Selenium这样的Web自动化工具发送HTTP请求到猫眼电影的URL。例如,`http://maoyan.com/top250`。
2. **HTML解析**: 利用BeautifulSoup、Scrapy或其他HTML解析库,从返回的网页源代码中提取需要的信息。这通常涉及到查找特定的HTML标签和class名,如电影标题(可能是<h1>或<div class="title">),主演名字(可能在演员列表下),上映时间和评分(可能在详情部分),以及电影海报的链接(可能是<img>标签的src属性)。
3. **数据清洗**: 解析出来的文本可能包含一些无关的字符,比如HTML标签或特殊符号,需要进行清理以便后续处理。
4. **存储数据**: 对于每部电影的数据,将其转换成字典或者其他适合的数据结构。然后,使用Python的pymysql库连接到MySQL数据库,并创建适当的表来储存数据。插入电影信息之前,确保检查字段是否匹配。
5. **数据插入**: 使用SQL INSERT INTO语句将电影数据逐条插入数据库。如果有多条数据,可以考虑批量插入提高效率。
6. **错误处理**: 添加异常处理机制,以防网络请求失败或者解析过程中遇到问题。
7. **循环爬取**: 如果Top100的页面分页,需要编写循环来遍历所有页面并将数据合并。
这里是一个简单的示例代码片段(使用了BeautifulSoup和pymysql):
```python
import requests
from bs4 import BeautifulSoup
import pymysql
# 步骤1-2
url = 'http://maoyan.com/top250'
response = requests.get(url)
soup = BeautifulSoup(response.text, 'html.parser')
# 步骤3-4
movies_data = []
for movie_item in soup.find_all('.item'):
title = movie_item.find('h2').text.strip()
actor_list = movie_item.find('span', {'class': 'attr'}).text.strip().split(',')
release_year = movie_item.find('span', {'class': 'year'}).text.strip()
rating = movie_item.find('span', {'itemprop': 'ratingValue'}).text.strip()
img_url = movie_item.find('img')['src']
# 更进一步的清洗和处理...
movies_data.append({
'title': title,
'actors': actor_list,
'release_date': release_year,
'rating': rating,
'image_url': img_url
})
# 步骤5-6
db = pymysql.connect(host='localhost', user='your_username', password='your_password', db='your_db')
cursor = db.cursor()
create_table_query = """
CREATE TABLE IF NOT EXISTS movies (
id INT AUTO_INCREMENT PRIMARY KEY,
title VARCHAR(255),
actors TEXT,
release_date DATE,
rating FLOAT,
image_url VARCHAR(255)
);
"""
cursor.execute(create_table_query)
insert_query = "INSERT INTO movies (title, actors, release_date, rating, image_url) VALUES (%s, %s, %s, %s, %s)"
cursor.executemany(insert_query, movies_data)
db.commit()
db.close()
阅读全文