南开大学《数据挖掘》在线作业解析：方法与技巧

版权申诉

143 浏览量更新于2024-08-05 收藏 11KB DOCX 举报

南开大学《数据挖掘》在线作业5包含了关于数据处理、数据模型、聚类算法、属性类型、数据压缩以及频繁项集和关联规则等内容。以下是详细的知识点解析： 1. 数据预处理：部分作业题目涉及到了数据缺失值的处理，提到自动填充方法(A)可能是最恰当的选择，尤其是在处理大规模数据集时，人工填写和全局常量填充可能会效率低下。 2. 数据仓库与多维数据模型：数据仓库通常基于多维数据模型，将数据组织成数据立方体(datacube)，这种模型强调了在不同维度上的分析，如时间、地域等。 3. DBSCAN算法复杂度：DBSCAN（Density-Based Spatial Clustering of Applications with Noise）在最坏情况下的时间复杂度是O(m^2)，这意味着随着数据点数量m的增长，算法执行的时间会显著增加。 4. 概念分层：在数据挖掘中，概念分层用于实现数据的多级抽象，使得可以从不同粒度层次上探索和分析数据，如销售模式的地区或国家级别分析。 5. 可伸缩聚类算法：CURE（Cluster Using Representatives）是一种可伸缩的聚类算法，它通过选取代表点来处理大规模数据，而其他选项如DENCLUE、CLIQUE和OPOSSUM可能不具备这种特性。 6. 二元属性分类：非对称的二元属性是指只有非零值才有意义的属性，例如性别（男/女），这种属性在数据挖掘中很重要。 7. 数据压缩和归约：数量归约（B）指的是用较小的数据表示形式来替代原始数据，这有助于减少存储空间和提升处理速度。 8. 主观信息融入：题目列举的方法中，与同一时期其他数据对比(A)不属于将主观信息加入到模式发现任务中的方法，因为这更多地依赖于客观数据比较。 9. KDD（Knowledge Discovery in Databases）的定义：知识发现与数据挖掘(A)是指从大量数据中提取有价值的信息和知识的过程，它包括领域知识发现、文档知识发现和动态知识发现等多个方面。 10. 多媒体数据特征：题目中提到的数据以可变长度的字节串存储，并且为了方便引用，可能需要链接或建立索引，这是多媒体数据(B)的典型特征，如图像、音频和视频。 11. 关联规则的数量：给定频繁项集X={1,2,3}，可以由这个项集产生6个不同的关联规则，因为可以形成3对不重复的项目组合，再加上自身作为单独的规则，总共是3+2+1=6个。 12. 平均值平滑法：对于年龄数据的按箱平均值平滑，箱的深度为3，意味着将数据分为三个区间。由于箱的深度和提供的数据点没有直接对应关系，我们无法直接计算出第二个箱子的具体值。需要进一步的上下文信息来确定具体的平滑规则，比如每个箱子里有多少个数据点参与计算。

《数据挖掘》在线作业

( )很费时,并且当数据集很大、缺失很多值时,该方法可能行不通。

A:人工填写缺失值方法

B:全局常量填充

C: 自动填充

D:删除

参考选项： A

数据仓库和 OLAP 工具基于多维数据模型。该模型将数据看作( )形式。

A:数据立方体(data cube)

B:整数

C:离散

D:不同

参考选项： A

DBSCAN 在最坏情况下的时间复杂度是( )。

A:O(m)

B:O(m2)

C:O(log m)

D:O(m*log m)

参考选项： B

( )可以用来把数据变换到多个粒度层。例如,关于销售的数据挖掘模式除了在

单个分店挖掘之外,还可以针对指定的地区或国家挖掘。

A:概念分层

B:聚类

C:数据变换

D:数据归约

参考选项： A

以下属于可伸缩聚类算法的是( )。

A:CURE

B:DENCLUE

C:CLIQUE

D:OPOSSUM

下载后可阅读完整内容，剩余3页未读，立即下载

Cheng-Dashi

粉丝: 108
资源: 1万+

南开大学《数据挖掘》在线作业解析：方法与技巧

21春南开大学《商务智能方法与技术》在线作业参考答案.docx

21春南开大学《物联网工程导论》在线作业参考答案.docx

21春南开大学《大数据导论》在线作业参考答案.docx

21春南开大学《电子商务解决方案案例》在线作业参考答案.docx

21春南开大学《领导学（尔雅）》在线作业参考答案.docx

南开大学20秋学期《大数据开发技术（一）》在线作业-1.docx

21春南开大学《商务智能方法与技术》(1703)在线作业参考答案.docx

南开大学2021年9月《数据科学导论》作业考核试题及答案参考5.docx

21春南开大学《网络营销》在线作业-2参考答案.docx

21春南开大学《电子政务》在线作业-2参考答案.docx

最新资源