以豆戏网上三联书店1994年版本的《天龙八部》短评为例,抓取短评网页的源码,解析HTML文档获取其中实际有效的评论内容,并以此生成一个词云图片。 为了让程序结构更清晰,我们对代码进行拆分,柠机取网页源码、分析
时间: 2024-05-20 07:10:23 浏览: 70
豆瓣短评的爬虫程序,并经过数据预处理和JieBa分词,统计词频,最终生成次云.zip
5星 · 资源好评率100%
HTML文档、抽取评论内容、生成词云图片分别放在不同的函数中。您需要实现这4个函数:
1. `get_html(url: str) -> str`: 给定网页的url,返回网页的HTML源码。
2. `parse_html(html: str) -> List[str]`: 给定HTML源码,返回其中所有实际有效的评论内容,以列表形式存储。
3. `generate_wordcloud(content_list: List[str], stopwords: Set[str], max_words: int = 100, width: int = 1200, height: int = 800) -> None`: 将评论内容列表转换为词云图片,并将其保存在本地文件中。其中,`stopwords`为停用词集合,`max_words`表示词云中最多包含的单词数,`width`和`height`分别表示词云的宽度和高度。
4. `get_comments(url: str) -> None`: 根据网页的url,自动完成以下操作:获取网页HTML源码、提取其中的评论内容、生成词云图片并保存在本地文件中。
注意事项:
1. 请在函数内部处理所有异常,不要直接抛出异常给外层调用者。
2. 在解析HTML文档时,注意过滤掉无关的HTML标签和噪声字符,只保留评论内容。
3. 为了提高词云效果,建议先去除停用词(如“的”、“了”、“这个”等无实际意义的词语),再进行词频统计。
4. 在实现函数时,您可以使用Python自带的库,也可以使用第三方库(如beautifulsoup、jieba、wordcloud等),但需要在作业中注明。
阅读全文