机器学习在数据挖掘中的应用分析

需积分: 9 12 下载量 189 浏览量 更新于2024-12-30 收藏 26.96MB ZIP 举报
资源摘要信息:"数据挖掘ppt.zip" 数据挖掘是一门涉及数据清洗、数据集成、数据选择、数据变换、数据挖掘、模式评估和知识表示等多个步骤的交叉学科。该学科的一个重要分支是机器学习,机器学习是研究如何使机器通过学习自动获得知识和技能,从而提高预测准确度或决策质量的科学。而协同过滤和分类算法、聚类算法是机器学习中常用的数据挖掘技术。 1. 协同过滤 协同过滤是一种基于用户和物品之间交互信息的推荐技术。它主要分为用户基于和物品基于两种方法。用户基于协同过滤是指根据目标用户与其他具有相似偏好的用户在历史行为上的相似性,来为该用户推荐物品。物品基于协同过滤则是从物品之间的相似性出发,根据目标用户历史喜好过的物品,推荐与这些物品相似的其他物品。协同过滤的关键在于发现用户或物品之间的相似度。 2. 分类算法 分类算法是机器学习中一种重要的监督学习方法,其目标是将实例数据划分到合适的类别中。常见的分类算法包括决策树、随机森林、支持向量机(SVM)、逻辑回归、朴素贝叶斯分类器和K最近邻(KNN)。分类算法在数据挖掘领域应用广泛,如信用评分、垃圾邮件检测、医疗诊断等。在选择分类算法时,需要考虑数据集的大小、数据的维度、类别标签的数量以及计算复杂度等因素。 3. 聚类算法 聚类算法是一种无监督学习方法,旨在将相似的数据点聚集在一起形成多个簇。聚类算法不依赖于预先标记的训练数据,而是通过分析数据特征来发现数据的内在结构。常见的聚类算法包括K-均值、层次聚类、DBSCAN、谱聚类和基于密度的聚类等。聚类广泛应用于市场细分、社交网络分析、图像分割、搜索引擎结果聚类等领域。 在数据挖掘PPT中,可能会包含机器学习基础知识、数据预处理步骤、协同过滤、分类算法和聚类算法的详细说明。例如,在数据预处理部分,可能会讨论数据清洗、数据归一化、特征选择和数据转换等重要步骤。在机器学习部分,可能会介绍机器学习的几种主要类型:监督学习、非监督学习、半监督学习和强化学习,并解释它们在数据挖掘中的应用。 此外,PPT还可能涉及实际案例分析,展示如何在不同的应用场景中运用协同过滤、分类和聚类算法解决问题。案例分析可能包括描述问题背景、数据集简介、选择合适的算法、模型训练、评估模型性能以及最终的结论和建议。 总之,该PPT的内容会帮助听众理解并掌握数据挖掘的核心概念、方法和应用,并能将这些知识应用于解决实际问题。通过本次分享,听众应能充分认识到机器学习在数据挖掘中的重要性,以及各种算法在实际中的有效性和局限性。

SELECT PIS.SHOW_FLT_DETAIL AS SHOW_FLT_DETAIL -- new , PIS.SHOW_AWB_DETAIL AS SHOW_AWB_DETAIL -- new , PIS.DISPLAY_AIRLINE_CODE AS CARRIER_CODE , DECODE(PIS.REVERT_FLOW,'N',PIS.FLOW_TYPE,DECODE(PIS.FLOW_TYPE,'I','E','I')) AS FLOW_TYPE , PIS.SHIP_TO_LOCATION AS SHIP_TO_LOCATION , PIS.INVOICE_SEQUENCE AS INVOICE_SEQUENCE , PFT.FLIGHT_DATE AS FLIGHT_DATE , PFT.FLIGHT_CARRIER_CODE AS FLIGHT_CARRIER_CODE , PFT.FLIGHT_SERIAL_NUMBER AS FLIGHT_SERIAL_NUMBER , PFT.FLOW_TYPE AS AIRCRAFT_FLOW , FAST.AIRCRAFT_SERVICE_TYPE AS AIRCRAFT_SERVICE_TYPE , PPT.AWB_NUMBER AS AWB_NUMBER , PPT.WEIGHT AS WEIGHT , PPT.CARGO_HANDLING_OPERATOR AS CARGO_HANDLING_OPERATOR , PPT.SHIPMENT_PACKING_TYPE AS SHIPMENT_PACKING_TYPE , PPT.SHIPMENT_FLOW_TYPE AS SHIPMENT_FLOW_TYPE , PPT.SHIPMENT_BUILD_TYPE AS SHIPMENT_BUILD_TYPE , PPT.SHIPMENT_CARGO_TYPE AS SHIPMENT_CARGO_TYPE , PPT.REVENUE_TYPE AS REVENUE_TYPE , PFT.JV_FLIGHT_CARRIER_CODE AS JV_FLIGHT_CARRIER_CODE , PPT.PORT_TONNAGE_UID AS PORT_TONNAGE_UID , PPT.AWB_UID AS AWB_UID , PIS.INVOICE_SEPARATION_UID AS INVOICE_SEPARATION_UID , PFT.FLIGHT_TONNAGE_UID AS FLIGHT_TONNAGE_UID FROM PN_FLT_TONNAGES PFT , FZ_AIRLINES FA , PN_TONNAGE_FLT_PORTS PTFP , PN_PORT_TONNAGES PPT , FF_AIRCRAFT_SERVICE_TYPES FAST , SR_PN_INVOICE_SEPARATIONS PIS --new , SR_PN_INVOICE_SEP_DETAILS PISD--new , SR_PN_INV_SEP_PORT_TONNAGES PISPT --new WHERE PFT.FLIGHT_OPERATION_DATE >= trunc( CASE :rundate WHEN TO_DATE('01/01/1900', 'DD/MM/YYYY') THEN ADD_MONTHS(SYSDATE,-1) ELSE ADD_MONTHS(:rundate,-1) END, 'MON') AND PFT.FLIGHT_OPERATION_DATE < trunc( CASE :rundate WHEN TO_DATE('01/01/1900', 'DD/MM/YYYY') THEN TRUNC(SYSDATE) ELSE TRUNC(:rundate) END, 'MON') AND PFT.TYPE IN ('C', 'F') AND PFT.RECORD_TYPE = 'M' AND (PFT.TERMINAL_OPERATOR NOT IN ('X', 'A') OR (PFT.TERMINAL_OPERATOR <> 'X' AND FA.CARRIER_CODE IN (SELECT * FROM SPECIAL_HANDLING_AIRLINE) AND PPT.REVENUE_TYPE IN (SELECT * FROM SPECIAL_REVENUE_TYPE) AND PPT.SHIPMENT_FLOW_TYPE IN (SELECT * FROM SPECIAL_SHIPMENT_FLOW_TYPE) AND PFT.FLIGHT_OPERATION_DATE >= (select EFF_DATE from SPECIAL_HANDLING_EFF_DATE) )) AND PFT.DELETING_DATETIME IS NULL AND FA.AIRLINE_UID = PFT.AIRLINE_UID AND FA.DELETING_DATETIME IS NULL AND PTFP.FLIGHT_TONNAGE_UID = PFT.FLIGHT_TONNAGE_UID AND PTFP.RECORD_TYPE = 'M' AND PTFP.DELETING_DATETIME IS NULL AND PPT.TONNAGE_FLIGHT_PORT_UID (+)= PTFP.TONNAGE_FLIGHT_PORT_UID AND PPT.RECORD_TYPE (+)= 'M' AND PPT.DISCREPANCY_TYPE (+)= 'NONE' AND PPT.ADJUSTMENT_INC_FLAG (+)= 'Y' AND PPT.DELETING_DATETIME (+) IS NULL AND FAST.AIRCRAFT_SERVICE_TYPE_UID = PFT.AIRCRAFT_SERVICE_TYPE_UID AND FAST.DELETING_DATETIME IS NULL AND PIS.TEMPORAL_NAME = TO_CHAR((CASE :rundate --new WHEN TO_DATE('01/01/1900', 'DD/MM/YYYY') THEN TRUNC(SYSDATE) ELSE TRUNC(:rundate) END ), 'YYYYMM') || '00' AND PIS.INVOICE_SEPARATION_UID = PISD.INVOICE_SEPARATION_UID --new AND PISD.INVOICE_SEP_DETAIL_UID = PISPT.INVOICE_SEP_DETAIL_UID --new AND PISPT.PORT_TONNAGE_UID = PPT.PORT_TONNAGE_UID --new AND PIS.PRINT_SUPPORTING_DOC = 'Y';上面是oracle的写法,请转成spark SQL的写法。

244 浏览量