爬取豆瓣top250的电影信息以及几个评价，然后用jieba库分词看一下情感极性把top250的电影分词几个情感类，分别写入Angry、Disgusted、Happy、Neutral、Sad、Scared、Surpriser的xlsx文件中,完整可用，带注释

首先，我们需要安装所需的库，包括 requests、beautifulsoup4、jieba 和 openpyxl。可以使用以下命令进行安装： ``` pip install requests beautifulsoup4 jieba openpyxl ``` 接下来，我们使用 requests 库获取豆瓣电影 Top250 的页面信息，并使用 beautifulsoup4 库解析页面： ```python import requests from bs4 import BeautifulSoup url = 'https://movie.douban.com/top250' response = requests.get(url) soup = BeautifulSoup(response.text, 'html.parser') ``` 然后，我们需要找到所有电影的链接，以便获取每个电影的详细信息和评价。在豆瓣电影 Top250 页面中，每个电影都有一个 class 为 "hd" 的 div 标签，其中包含了电影的链接。我们可以使用以下代码来获取所有电影链接： ```python movie_links = [] for movie in soup.find_all('div', class_='hd'): movie_link = movie.a['href'] movie_links.append(movie_link) ``` 接下来，我们需要访问每个电影的详细页面，并从页面中获取电影信息和评价。在豆瓣电影页面中，电影信息和评价都包含在 class 为 "subject" 的 div 标签中。我们可以使用以下代码来获取电影信息和评价： ```python import re movie_info = [] movie_comments = [] for link in movie_links: response = requests.get(link) soup = BeautifulSoup(response.text, 'html.parser') # 获取电影信息 info = soup.find('div', class_='subject') title = info.h1.span.text year = re.search(r'\d+', info.find('span', class_='year').text).group() director = info.find('a', rel='v:directedBy').text actors = [a.text for a in info.find_all('a', rel='v:starring')] genres = [a.text for a in info.find_all('span', property='v:genre')] rating = info.find('strong', class_='rating_num').text summary = info.find('span', property='v:summary').text.strip() movie_info.append([title, year, director, actors, genres, rating, summary]) # 获取电影评价 comments = soup.find('div', class_='comment-list hot') for comment in comments.find_all('p'): movie_comments.append(comment.text.strip()) ``` 现在，我们已经获取了所有电影的信息和评价。接下来，我们需要使用 jieba 库对评价进行分词，并使用情感词典来判断情感类别。我们可以使用以下代码来实现： ```python import jieba import jieba.analyse import os # 加载情感词典 jieba.load_userdict(os.path.join(os.path.dirname(__file__), 'sentiment_dict.txt')) # 定义情感词典标签 sentiment_tags = { 'angry': ['愤怒', '生气'], 'disgusted': ['厌恶', '恶心'], 'happy': ['开心', '高兴'], 'neutral': ['中性'], 'sad': ['悲伤', '难过'], 'scared': ['害怕', '恐惧'], 'surprised': ['惊讶', '吃惊'] } # 分词并打上情感标签 movie_sentiments = [] for comment in movie_comments: words = jieba.lcut(comment) sentiment = 'neutral' for word in words: for tag, sentiment_words in sentiment_tags.items(): if word in sentiment_words: sentiment = tag break if sentiment != 'neutral': break movie_sentiments.append([comment, sentiment]) ``` 最后，我们需要将电影按照情感类别写入不同的 Excel 文件中。我们可以使用 openpyxl 库来实现： ```python from openpyxl import Workbook # 创建 Excel 文件 workbook = Workbook() for tag in sentiment_tags: workbook.create_sheet(title=tag) # 写入数据 for movie, sentiment in zip(movie_info, movie_sentiments): comment, tag = sentiment sheet = workbook[tag] sheet.append(movie + [comment]) # 保存文件 workbook.save('top250_sentiments.xlsx') ``` 完整代码如下：

爬取豆瓣top250的电影信息以及几个评价，然后用jieba库分词看一下情感极性把top250的电影分词几个情感类，分别写入Angry、Disgusted、Happy、Neutral、Sad、Scared、Surpriser的xlsx文件中,完整可用，带注释

相关推荐

基于朴素贝叶斯的豆瓣Top250影评的情感分析与预测 附完整源码和数据.zip

jieba分词-情感分析-词云例子.ipynb.zip_jieba_meantu2t_snownlp_情感分析

爬取豆瓣影评、清洗、jieba分词、做词云图

【进阶】jieba库高级分词在情感分析中的应用与调优

【进阶】jieba库高级分词优化：并行分词与词典加载

【进阶】jieba库高级分词技巧与词性标注

【进阶】jieba库高级分词与停用词过滤的技巧

【进阶】jieba库高级分词与自定义词典的结合应用

爬取豆瓣top250的电影信息以及几个评价，然后用jieba库分词看一下情感极性，把top250的电影分词几个情感类，分别写入Angry、Disgusted、Happy、Neutral、Sad、Scared、Surpriser的xlsx文件中

爬取豆瓣top250的电影信息以及几个评价，用jieba库分词看一下情感极性把top250的电影分词分成几个情感类 ，分别写入Angry、Disgusted、Happy、Neutral、Sad、Scared、Surpriser的xlsx文件中,完整可用，带注释

爬取豆瓣电影Top250评论的数据做文本情感分析和热词统计

python爬取豆瓣top250电影数据 并分析电影类型

豆瓣电影Top250Python词云图

jieba库分词代码

matplotlib编程一个用户评价系统,要求使用列表、字典、jieba库对自定义文本进行分词、使用ad

python实现jieba分词将几个单独的字符串组合成正常词语

用jieba库对文件分词并统计出现次数最多的五个词

从xlsx文件里读取一列评论，通过jieba库分词，一个字的不要，统计结果

在结巴分词的库里加入几个词语，然后用新的结巴分词来分词

最新推荐

python使用jieba实现中文分词去停用词方法示例

jieba分词的词性对照表（采用和ictclas兼容的标记法）.docx

京瓷TASKalfa系列维修手册：安全与操作指南

管理建模和仿真的文件

【进阶】入侵检测系统简介

轨道障碍物智能识别系统开发

小波变换在视频压缩中的应用

"互动学习：行动中的多样性与论文攻读经历"

【进阶】Python高级加密库cryptography

linuxjar包启动脚本

基于朴素贝叶斯的豆瓣Top250影评的情感分析与预测附完整源码和数据.zip

爬取豆瓣top250的电影信息以及几个评价，用jieba库分词看一下情感极性把top250的电影分词分成几个情感类，分别写入Angry、Disgusted、Happy、Neutral、Sad、Scared、Surpriser的xlsx文件中,完整可用，带注释

python爬取豆瓣top250电影数据并分析电影类型