Python爬取3032个美食菜谱：数据清洗与分析实战

126 浏览量更新于2024-06-16 收藏 4.09MB DOCX 举报

本文主要介绍了如何利用Python编程语言进行美食信息的网络抓取和数据分析，以实现成为一个合格的“吃货”。作者首先从豆果美食网抓取了3032个菜谱，这些菜谱涵盖了川菜、粤菜、湘菜等八大中国菜系，包括菜谱名称、链接、所需材料、评分以及图片等关键信息。数据获取部分，作者分享了使用Python的简洁代码，通过构建URL模板和递归爬取多页来实现数据抓取。在数据清洗阶段，作者强调了数据预处理的重要性。他们使用了Pandas库，这是一个强大的数据处理工具，对数据进行了去重（删除重复的菜谱）、处理缺失值（剔除含有缺失数据的记录）以及评分字段的规范化（将评分字段中的字符串转化为数字以便于后续的统计和分析）。通过删除重复项和处理缺失值，确保了数据的质量和可用性。主函数`main()`定义了一个动态URL生成器，用于指定菜系和页码，通过`time.sleep()`函数随机增加等待时间以避免过于频繁的请求被识别为机器人。循环结构遍历了所有中国菜系，并爬取了每种菜系的多页数据，展示了灵活的爬虫设计。整个过程不仅涉及到了网络爬虫技术，还运用了Python编程的基础知识，如字符串操作、函数定义和异常处理，以及数据科学中的数据清洗和预处理。通过分析这些抓取的菜谱数据，作者可以进一步探索菜谱的受欢迎程度、地域分布、评分趋势等，从而为读者提供个性化的美食推荐或进行深入的美食研究。本文对于想要学习Python网络爬虫或对美食爱好者来说，提供了实用的技巧和示例，有助于提升数据处理能力，并帮助他们在享受美食的同时，也能从数据中发现乐趣和洞察。

1818 title_opts=opts.TitleOpts(title="菜谱评分分布"

1919 ),

2020 legend_opts=opts.LegendOpts(

2121 orient="vertical", pos_top="5%", pos_left="2%"

,textstyle_opts=opts.TextStyleOpts(font_size=14)# 左⾯⽐例尺

2222 ),

2323

2424

2525 )

2626 .set_series_opts(label_opts=opts.LabelOpts(formatter="{b}:{d}%",font_size=18),

2727 )

2828 )

2929c.render_notebook()

⾖果美⾷⽹菜谱评分实⾏5分制。由上图可知，4分以下的菜谱占⽐不到2%，满分菜谱

⾼达32.6%，可见⽤户对中国菜系菜谱评价普遍较⾼。

各菜系菜谱数量对⽐

21from pyecharts import options as opts

3 2from pyecharts.charts import Page, Pie

4 3df2 = df.groupby('菜系')['评分'].count() #按菜系分组，对评分计数

5 4df2 = df2.sort_values(ascending=False) #降序

6 5print(df2)

7 6c = (

8 7 Pie()

9 8 .add("", [list(z) for z in zip(df2.index.to_list(),df2.to_list())])

10 9

.set_global_opts(title_opts=opts.TitleOpts(title="各菜系菜谱数量占⽐",subtitle="数据来源

：⾖果美⾷"))

1110 .set_series_opts(label_opts=opts.LabelOpts(formatter="{b}: {c}"))

1211 )

1312c.render_notebook()

剩余15页未读，继续阅读

zz_ll9023one

粉丝: 916

Python爬取3032个美食菜谱：数据清洗与分析实战

Python-爬虫爬取豆果网和美食网的菜单

python实现两个菜谱网站的特定文本爬虫

计算机毕业设计jsp吃货美食推荐网站掌柜有礼vue论文

吃货美食节活动方案.pptx

毕业设计SSM吃货美食推荐网站掌柜有礼vue源码含文档含教程

吃货联盟框架

北大青鸟吃货联盟

基于Java开发的校园美食爱好者专属吃货商城设计源码

【美食活动策划】2019吃货夏日么么生活节活动策划方案.pptx

拼吃货：大学生美食社交平台商业计划书

最新资源