淘宝服饰销量与评价分析：Python爬虫+Hive统计

需积分: 14 132 浏览量更新于2024-08-04 11 收藏 2.36MB DOCX 举报

"该资源是文华学院的一份个人作业，旨在通过数据挖掘技术分析淘宝服饰的销量和评价。作业主要包括四个步骤：1) 使用Python爬虫获取销量、评分和评价数据；2) 数据清洗；3) 分词统计关键词；4) 使用Hive基于关键词进行总体数据分析。" 在该项目中，作者首先对淘宝服饰的数据进行爬取，利用Python的requests库发送HTTP请求到淘宝的商品评论页面。为了应对淘宝的反爬策略，设置了伪装的HTTP头，包括cookies、referer和user-agent。通过观察URL变化，发现页码与参数currentpage相关，从而实现翻页爬取。数据被存储在pandas的DataFrame结构中，这是一种非常适合处理结构化数据的数据结构，它允许指定行和列的标签。在数据清洗阶段，作者可能会去除无用的信息，如广告、HTML标签或其他非数据内容。这一步骤对于确保后续分析的准确性至关重要。接着，使用jieba库对评论内容进行中文分词。jieba是一个流行的中文分词库，能够高效地处理中文文本。在分词过程中，还需要过滤掉常见的停用词，这些词在文本中频繁出现但通常不包含太多信息，如“的”、“是”等。统计关键词时，通过对分词后的评价内容进行采样，可以找出消费者关注的热点话题。这有助于了解消费者对商品的普遍看法和主要问题。最后，通过Hive进行大数据处理和分析。Hive是一个基于Hadoop的数据仓库工具，能将结构化的数据文件映射为一张数据库表，并提供SQL查询功能，适合对大规模数据集进行统计分析。在这个项目中，作者可能使用Hive对关键词进行频率统计，以获得整体数据的宏观洞察。总体设计上，该项目结合了Python的网络爬虫技术、数据清洗、自然语言处理以及大数据分析工具，构建了一个完整的数据分析流程。通过这个项目，学生可以掌握从数据获取到分析的一系列技能，对于理解和应用数据挖掘技术有极大的帮助。

三：组件分析设计描述(文字+图表+部分源码)

1. 用 python 的 requests 库来爬取爬取淘宝商品的评论

(1) 首先要确定要爬取商品页面。我用的是 chrome 浏览器按下 F12 打开开发者模

式。在栈中找到 list_detail_rate，在 preview 下查看 ratelist 发现一页有二十

个用户信息。

此时如果直接爬取是爬取不下来的，因为淘宝天猫有比较强的防爬机制，我们需要

设置伪装头文件。headers 可以有很多参数，但是我只设置了 cookies:哪个用户想

要看数据,referer:从哪个页面发出的数据申请,user-agent:浏览器信息，这三个

参数。

还有要解决如何翻页评论，通过观察 url 发现页数是与参数 currentpage 有关的。

只需要改变 currentpage=的值就能达到自动翻页的操作。我爬了 64 面，有 520 行。

1. data_list = []

2. for i in range(1, 65, 1):

3. print("正在爬取第" + str(i) + "页")

4. #

构建访问的网址，这个网址可有讲究了

5. first = 'https://rate.tmall.com/list_detail_rate.htm?it

emId=668243577169&spuId=2295738160&sellerId=2200632072140&or

der=3&currentPage='

6. last = '&append=（这里 url 太长了我就只显示一部分）

7. url = first + str(i) + last

8. # 访问的头文件，还带这个 cookie

9. headers = {

10. # 用的哪个浏览器

' user-agent ': ' Mozilla/ 5 . 0 (Macintosh; Intel Mac OS X 10_15_4)

AppleWebKit/ 537 . 36 (KHTML, like Gecko) Chrome/80.0.3987.149

Safari/ 537 . 36',

11. # 从哪个页面发出的数据申请，每个网站可能略有不同

12. ' referer ': ' https://detail.tmall.com/item.htm?spm=a230r.1.

14.30.44835931U05ahG&id=668243577169&ns=1&abbucket=2',

13. #

哪个用户想要看数据，是游客还是注册用户

建议使用登录后的

14. 'cookie': 'lid=tb160585983; enc=eqrT4C%2F77nbmdtxZh

7sZkkNDDfvg7svuQNAp3o7gyok9%2FOb0am2JRN（cookie 也太长了，只显

示一部分）

15. }

(2) 下面就可以开始爬取，用 requests 库的 get 方法向网站发起请求，并获取

剩余12页未读，继续阅读

果巴敲好吃

粉丝: 22
资源: 8

淘宝服饰销量与评价分析：Python爬虫+Hive统计

大数据云计算技术 淘宝网Hadoop与数据分析 taobao数据团队（共30页）.ppt

【Hadoop与大数据50】毛波（逸客）-大数据分析与挖掘在淘宝的应用与挑战

文华数据格式分析,适合生成文本进行分析

文华财经 量化交易系统 pdf

文华财经指标公式期货分析软件极品macd指标赢顺云指标赢智睿指标

autoit 文华财经

文华财经macd金叉死叉提示

文华财经期货指标软件波段王指标源码macd多空至尊指标

文华macd多空指标

文华财经缠论指标下载

最新资源

大数据云计算技术淘宝网Hadoop与数据分析 taobao数据团队（共30页）.ppt

文华财经量化交易系统 pdf