数据挖掘技术期末复习
时间: 2024-06-14 20:05:13 浏览: 187
数据挖掘技术期末复习可以包括以下几个方面的内容:
1. 属性选择:根据初始工作关系,判断哪些属性需要删除、概化或保留。属性选择是数据预处理的一部分,可以通过信息增益、信息增益比、基尼指数等方法来选择最具有代表性的属性。
2. 数据挖掘查询语言(DMQL):给出DMQL查询,可以对数据挖掘的原语进行操作。DMQL是一种用于查询和操作数据挖掘模型的语言,可以用于数据挖掘任务的定义、模型的训练和评估等。
3. 数据度量:给出一批数据,可以度量其中心趋势和离散特征。中心趋势可以用均值、中位数、众数等来度量,离散特征可以用方差、标准差、极差等来度量。图一和图二可以用来可视化数据的中心趋势和离散度。
4. 频繁项集和关联规则:给出事务数据库和最小支持度、置信度,可以求解所有的频繁项集和它们的支持度,并进一步求解强关联规则。Apriori算法是一种常用的频繁项集挖掘算法,可以通过连接和剪枝的方式来生成频繁项集。
以下是一个示例:
```python
# 属性选择
selected_attributes = attribute_selection(data)
# DMQL查询
result = dmql_query(query)
# 数据度量
center_tendency = measure_center_tendency(data)
discreteness = measure_discreteness(data)
# 频繁项集和关联规则
frequent_itemsets = apriori(data, min_support)
strong_rules = generate_association_rules(frequent_itemsets, min_confidence)
```
阅读全文