没有合适的资源?快使用搜索试试~ 我知道了~
首页Rapidminer中文手册
Rapidminer中文手册

RapidMiner中文手册,对于初学RapidMiner者有很好的帮助
资源详情
资源评论
资源推荐

《RapidMiner 数据分析与挖掘实战》第 1 章
1
基础篇
第1章 数据挖掘基础
1.1 某知名连锁餐饮企业的困惑
国内某餐饮连锁有限公司(以下简称 T 餐饮)成立于 1998 年,主要经营粤菜,兼顾湘
菜、川菜、中餐等综合菜系。至今已经发展成为在国内具有一定知名度、美誉度,多品牌、
立体化的大型餐饮连锁企业。属下员工 1000 多人,拥有 16 家直营分店,经营总面积近 13000
平方米,年营业额近亿元。其旗下各分店均坐落在繁华市区主干道,雅致的装潢,配之以精
致的饰品、灯具、器物,出品精美,服务规范。
近年来餐饮行业面临较为复杂的市场环境,与其他行业一样餐饮企业都遇到了原材料成
本升高、人力成本升高、房租成本升高等问题,这也使得整个行业的利润率急剧下降。人力
成本和房租成本的上升是必然趋势,如何在保持产品质量同时提高企业效率,成为了 T 餐
饮急需面对的问题。从 2000 年开始,T 餐饮通过加强信息化管理来提高效率, 目前已上线
的管理系统包括:
(1)客户关系管理系统
该系统详细记录了每位客人的喜好,为顾客提供个性化服务,满足客户个性化需求。通
过客户关怀,提高客户的忠诚度。比如企业能随时查询了解今天哪位客人过生日或其他纪念
日,根据客人的价值分类进行相应关怀,如送鲜花、生日蛋糕、寿面等。通过本系统,还可
对客户行为进行深入分析,包括客户价值分析、新客户分析与发展,并根据其价值情况提供
给管理者,为企业提供决策支持。
(2)前厅管理系统
该系统通过掌上电脑无线点菜方式,改变了传统“饭店点菜、下单、结账一支笔、一张
纸,服务员来回跑的局面”,快速完成点菜过程。通过厨房自动送达信息,服务员的写菜速
度加快不需要再通过手写,同时传菜部也轻松不少,菜单会通过电脑自动打印出来,差错率
降低,也不存在厨房人员看不懂服务员字迹而搞错的问题。
(3)后厨管理系统

《RapidMiner 数据分析与挖掘实战》第 1 章
2
信息化技术可实现后厨与前厅沟通无障碍,客人菜单瞬间传到厨房。服务员只需点击掌
上电脑的发送键,客人的菜单即被传送到收银管理系统中,由系统的电脑发出指令,设在厨
房等处的打印机立即打印出相应的菜单,厨师按单做菜。与此同时,收银台也打印出一张同
样的菜单放在客人桌上,以备客人查询以及作结账凭据,使客人明白消费。
(4)财务管理系统
该系统完成销售统计、销售分析、财务审计,实现对日常经营销售的管理。通过报表,
企业管理者很容易掌握前台的销售情况,从而达到对财务的控制。通过表格和图形可以显示
餐厅的销售情况,如菜品排行榜、日客户流量、日销售收入分析等;统计每天的出菜情况,
可以了解哪些是滞销菜,哪些是畅销菜,从而了解顾客的品位,有针对性地制定出一套既适
合餐饮企业发展又能迎合顾客品位的菜肴体系和定价策略。
(5)物资管理系统
该系统主要完成对物资的进销存,实际上就是一套融采购管理(入库、供应商管理、账
款管理)、销售(通过配菜卡与前台销售联动)、盘存为一体的物流管理系统。对于连锁企业,
还涉及到统一配送管理等。
通过以上信息化的建设,T 餐饮已经积累了大量的历史数据,有没有一种方法可帮助企
业从这些数据中洞察商机,提取价值?在同质化的市场竞争中,找到一些市场以前并不存在
的“捡漏”和“补缺”?
1.2 从餐饮服务到数据挖掘
企业经营最大的目的就是盈利,而餐饮业企业盈利的核心就是其菜品和顾客,也就是其
提供的产品和服务对象。企业经营者每天都在想推出什么样的菜系和种类会吸引更多的顾客,
究竟各种顾客各自的喜好是什么,在不同的时段是不是有不同的菜品畅销,当把几种不同的
菜品组合在一起推出时是不是能够得到更好的效果,未来一段时间菜品原材应该采购多
少……
T 餐饮的经营者想尽快地解决这些疑问,使自己的企业更加符合现有顾客的口味,吸引
更多的新顾客,又能根据不同的情况和环境转换自己的经营策略。T 餐饮在经营过程中,通
过分析历史数据,总结出一些行之有效的经验:
在点餐过程中,由有经验的服务员根据顾客特点进行菜品推荐,一方面可提高菜品
的销量,另外一方面可减少客户点餐的时间和频率,提高用户体验;

《RapidMiner 数据分析与挖掘实战》第 1 章
3
根据菜品历史销售情况,综合考虑节假日、气候和竞争对手等影响因素,对菜品销
量进行预测,以便餐饮企业提前准备原材料;
定期对菜品销售情况进行统计,分类统计出好评菜和差评菜,为促销活动和新菜品
推出提供支持;
根据就餐频率和金额对顾客的就餐行为进行评分,筛选出优质客户,定期回访和送
去关怀。
上述措施的实施都依赖于企业已有业务系统中保存的数据,但是目前从这些数据中获得
有关产品和客户的特点以及能够产生价值的规律更多依赖于管理人员的个人经验。如果有一
套工具或系统,能够从业务数据中自动或半自动地发现相关的知识和解决方案,这将极大地
提高企业的决策水平和竞争能力。这种从数据中“淘金”,从大量数据(包括文本)中挖掘
出隐含的、未知的、对决策有潜在价值的关系、模式和趋势,并用这些知识和规则建立用于
决策支持的模型,提供预测性决策支持的方法、工具和过程,就是数据挖掘;它是利用各种
分析工具在大量数据中寻找其规律和发现模型与数据之间关系的过程,是统计学、数据库技
术和人工智能技术的综合。
这种分析方法可避免“人治”的随意性,避免企业管理仅依赖个人领导力的风险和不确
定性,实现精细化营销与经营管理。
1.3 数据挖掘的基本任务
数据挖掘的基本任务包括利用分类与预测、聚类分析、关联规则、时序模式、偏差检测、
智能推荐等方法,帮助企业提取数据中蕴含的商业价值,提高企业的竞争力。
对餐饮企业而言,数据挖掘的基本任务是从餐饮企业采集各类菜品销量、成本单价、会
员消费、促销活动等内部数据,以及天气、节假日、竞争对手以及周边商业氛围等外部数据;
之后利用数据分析手段,实现菜品智能推荐、促销效果分析、客户价值分析、新店选点优化、
热销/滞销菜品分析和销量趋势预测;最后将这些分析结果推送给餐饮企业管理者及有关服
务人员,为餐饮企业降低运营成本,增加盈利能力,实现精准营销,策划促销活动等提供智
能服务支持。
1.4 数据挖掘建模过程
从本节开始,将以餐饮行业的数据挖掘应用为例,详细介绍数据挖掘的建模过程,如图

《RapidMiner 数据分析与挖掘实战》第 1 章
4
1-1 所示。
图 1‐1 餐饮行业数据挖掘建模过程
1.4.1 定义挖掘目标
针对具体的数据挖掘应用需求,首先要明确本次的挖掘目标是什么?系统完成后能达到
什么样的效果?因此我们必须分析应用领域,包括应用中的各种知识和应用目标,了解相关
领域的有关情况,熟悉背景知识,弄清用户需求。要想充分发挥数据挖掘的价值,必须要对
目标有一个清晰明确的定义,即决定到底想干什么。
针对餐饮行业的数据挖掘应用,可定义如下挖掘目标:
实现动态菜品智能推荐,帮助顾客快速发现自己感兴趣的菜品,同时确保推荐给顾
客的菜品也是餐饮企业所期望的,实现餐饮消费者和餐饮企业的双赢;
对餐饮客户进行细分,了解不同客户的贡献度和消费特征,分析哪些客户是最有价
值的,哪些是最需要关注的,对不同价值的客户采取不同的营销策略,将有限的资
源投放到最有价值的客户身上,实现精准化营销;
基于菜品历史销售情况,综合考虑节假日、气候和竞争对手等影响因素,对菜品销
量进行趋势预测,方便餐饮企业准备原材料;
基于餐饮大数据,优化新店选址,并对新店位置的潜在顾客口味偏好进行分析,以
便及时进行菜式调整。

《RapidMiner 数据分析与挖掘实战》第 1 章
5
1.4.2 数据取样
在明确了需要进行数据挖掘的目标后,接下来就需要从业务系统中抽取出一个与挖掘目
标相关的样本数据子集。抽取数据的标准,一是相关性,二是可靠性,三是有效性,而不是
动用全部企业数据。通过数据样本的精选,不仅能减少数据处理量,节省系统资源,而且使
我们想要寻找的规律性更加突显出来。
进行数据取样,一定要严把质量关。在任何时候都不能忽视数据的质量,即使是从一个
数据仓库中进行数据取样,也不要忘记检查其质量如何。因为数据挖掘是要探索企业运作的
内在规律性,原始数据有误,就很难从中探索规律性。若真的从中还探索出来了什么“规律
性”,再依此去指导工作,则很可能会造成误导。若从正在运行的系统中进行数据取样,更
要注意数据的完整性和有效性。
衡量取样数据质量的标准包括:
1) 资料完整无缺,各类指标项齐全。
2) 数据准确无误,反映的都是正常(而不是异常)状态下的水平。
对获取的数据,可再从中作抽样操作。抽样的方式是多种多样的,常见的有:
随机抽样:在采用随机抽样方式时,数据集中的每一组观测值都有相同的被抽样的
概率。如按 10%的比例对一个数据集进行随机抽样,则每一组观测值都有 10%的
机会被取到。
等距抽样:如按 5%的比例对一个有 100 组观测值的数据集进行等距抽样,则有:
100 / 5 = 20,等距抽样方式是取第 20、40、60、80 和第 100 五组观测值。
分层抽样:在这种抽样操作时,首先将样本总体分成若干层次(或者说分成若干个
子集)。在每个层次中的观测值都具有相同的被选用的概率,但对不同的层次可设
定不同的概率。这样的抽样结果通常具有更好的代表性,进而使模型具有更好的拟
合精度。
从起始顺序抽样:这种抽样方式是从输入数据集的起始处开始抽样。抽样的数量可
以给定一个百分比,或者直接给定选取观测值的组数。
分类抽样:在前述几种抽样方式中,并不考虑抽取样本的具体取值。分类抽样则依
据某种属性的取值来选择数据子集。,如按客户名称分类、按地址区域分类等。分
类抽样的选取方式就是前面所述的几种方式,只是抽样以类为单位。
剩余310页未读,继续阅读



















czhlovehong
- 粉丝: 5
- 资源: 3
上传资源 快速赚钱
我的内容管理 收起
我的资源 快来上传第一个资源
我的收益
登录查看自己的收益我的积分 登录查看自己的积分
我的C币 登录后查看C币余额
我的收藏
我的下载
下载帮助

会员权益专享
最新资源
- Xilinx SRIO详解.pptx
- Informatica PowerCenter 10.2 for Centos7.6安装配置说明.pdf
- 现代无线系统射频电路实用设计卷II 英文版.pdf
- 电子产品可靠性设计 自己讲课用的PPT,包括设计方案的可靠性选择,元器件的选择与使用,降额设计,热设计,余度设计,参数优化设计 和 失效分析等
- MPC5744P-DEV-KIT-REVE-QSG.pdf
- 通信原理课程设计报告(ASK FSK PSK Matlab仿真--数字调制技术的仿真实现及性能研究)
- ORIGIN7.0使用说明
- 在VMware Player 3.1.3下安装Redhat Linux详尽步骤
- python学生信息管理系统实现代码
- 西门子MES手册 13 OpcenterEXCR_PortalStudio1_81RB1.pdf
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈



安全验证
文档复制为VIP权益,开通VIP直接复制

评论8