- 11 -
瓜、橘子、大枣和苹果各自为一类。对于分到一类的水果,由于考虑其所含营养素成分
及其含量具有一定的相似性,具有一定的可替代性。
结合各类水果年产量占水果总产量的程度,选取具有代表性且高产量的水果。从第
一类中,我们选取柿子、菠萝和葡萄;从第二类中,我们选取梨和西瓜;从第三类中,
我们选取香蕉;对于草莓,木瓜、橘子、大枣和苹果各成一类的,由于木瓜产量少,我
们只选取了草莓、橘子、大枣和苹果。最后,根据我们的筛选结果,我们筛选出10种无
论是在营养素成分上还是含量上都满足研究需求的水果:苹果、香蕉、橘子、梨、葡萄、
菠萝、大枣、柿子、西瓜和草莓。
3.基于聚类分析法进行蔬菜种类的筛选
(1)基于三次样条插值法解决蔬菜年产量数据的缺失问题
由于从统计年鉴中得到的各类蔬菜的产量存在缺失,只包含蔬菜生产总量和部分蔬
菜从2003年到2011年的数据,并且缺失2007年的数据。介于这种情况,我们利用三次样
条插值方法先补充缺失值,再进行聚类分析。
三次样条函数,即给定一批数据点,需要确定满足特定要求的曲面或曲线,如果要
求所求曲面或曲线通过所有的店,这就是插值问题。
在数学上已知某未知函数的一组观测(或试验)数据
,
要寻找一个函数,使
,则称此类问题为插值问题。并称为
的插值函数,并称
为样本点;称
为插值条件,可得:
。
一般来说,插值一般所用的方法有拉格朗日插值、分段线性插值和三次样条插值。
而本文中所用的补全数据的方法是三次样条插值。三次样条线性插值是存在较低次的分
段多项式达到较高阶光滑性的一种方法。
利用 MATLAB 程序,结合所给出的 2003 年 2011 年的数据,补全 2007 年的数据。
根据2003年到2011年的数据补全了2007年的蔬菜产量数据。从2003年至2011年整个
期间中,绝大多数蔬菜产量都是递增的,从截取的2006年至2008年的数据中也可以看出,
蔬菜产量仍然是逐年增长的,因此说明三次样条插值法补充的数据效果较好。
(2)基于聚类分析法进行蔬菜种类的筛选
为了进行代表性研究,同样可以从附件1中常见蔬菜营养成分表中的蔬菜项目来进
行筛选。剔除掉一些具有地区性和季节性较为明显并且产量较小的蔬菜,同时考虑蔬菜
之间所含有的营养素成分及含量的相似性,选取脂溶性维生素(维生素A、D、E等)、
水溶性维生素(维生素B1、B2、B6、B12、C等)、矿物质(钠、铁、锌、硒等)、膳
食纤维等21种营养素,运用SPSS 20软件对14种蔬菜在进行聚类分析,分析结果如下图
所示: