数据对象与属性类型:数值属性分析

需积分: 50 42 下载量 180 浏览量 更新于2024-08-20 收藏 11.16MB PPT 举报
"这是一份关于R语言多元统计分析的课件,主要讲解数值属性的类型,包括数量、区间和比率三个类别,并涉及到数据挖掘、探索性数据分析、数据对象和属性类型等多个数据科学领域的概念。内容涵盖了数据的统计描述、数据可视化、数据正态性、相似性和相异性的度量,以及不同种类的数据集合,如记录、图和网络、有序数据、空间和图像数据等。此外,还提到了数据的维度、稀疏性、分辨率和分布等重要特征。" 在这份课件中,数值属性的类型是关键讨论点: 1. **数量(Quantity)**:数值属性可以是整数或实数,代表连续或离散的量。这类数据可以进行加减乘除等数学运算。 2. **区间(Interval)**:在同等大小的尺度单位上测量的数据,如温度(摄氏度或华氏度)、日历日期等。虽然有数值上的顺序,但这些数据类型的零点是人为设定的,不具有绝对意义上的零值。 3. **比率(Ratio)**:具有真正零点的数值属性,例如温度的开尔文标度,10K是5K的两倍。比率尺度允许比较不同数值间的比例关系。 课件还涉及了更广泛的数据科学主题: - **探索性数据分析(EDA)**:包括数据可视化分析,这是理解数据分布、模式和异常的关键步骤。 - **数据的统计描述**:对数据的基本统计量如均值、中位数、方差等进行计算,以概括数据的主要特性。 - **数据可视化**:通过图表展示数据,帮助识别模式、趋势和异常值。 - **数据正态性**:检查数据是否遵循正态分布,这对于许多统计检验和模型假设至关重要。 - **测量数据相似性和相异性**:利用距离度量或相似性度量来比较数据对象。 数据集合的多样性和特性也得到了讨论: - **记录**:包括关系型记录、数据矩阵、文档数据、交易数据等,涵盖了各种结构化的数据形式。 - **图和网络**:如社交网络、信息网络等,是复杂数据结构的典型例子。 - **有序数据**:如视频数据、时间序列数据,它们包含时间上的顺序信息。 - **空间、图像和多媒体数据**:包括地图、图像数据和视频数据,这些都是地理信息系统和视觉分析的重要组成部分。 课件还强调了数据的几个关键特征,如维度、稀疏性、分辨率和分布,这些都是处理大规模数据时必须考虑的因素。例如,维度灾难是指随着维度增加,数据点变得更加稀疏,使得分析变得更加困难;而稀疏性意味着只关注出现的特征,忽略未出现的;分辨率则影响我们能检测到的模式;分布则反映数据的集中程度和分散情况。