数据仓库与数据挖掘:概念、技术与应用解析

版权申诉
5星 · 超过95%的资源 3 下载量 135 浏览量 更新于2024-07-20 收藏 4.2MB PPT 举报
"数据仓库与数据挖掘应用.ppt" 数据仓库是信息技术领域的重要组成部分,它是一种专注于特定主题、集成化、非易失性且随时间变化的数据集合,旨在支持管理层的决策过程。这一概念最早由W.H. Inmon在1996年提出,他将数据仓库定义为面向主题的、集成的、非易失的和时间相关的数据集合。而J. Ladley在1997年的观点中强调,数据仓库是一系列方法、技术和工具的组合,用于创建一个提供整合平台上的数据给最终用户的过程。 数据仓库体系结构通常包括多个组件,如数据源、ETL(抽取、转换、加载)工具、数据存储(例如关系型数据库管理系统)、数据模型和元数据管理。数据仓库设计阶段需要考虑业务需求、数据源分析、数据清洗、数据建模(例如星型或雪花型模型)以及性能优化。 数据仓库与数据库技术的主要区别在于其目的和设计原则。数据库通常用于事务处理和实时操作,而数据仓库则用于分析和报告,其数据经过预处理和汇总,以提供高效的查询性能。此外,数据仓库的数据结构和数据库可能不同,前者往往更注重读取性能而非写入速度。 数据仓库的性能受到多个因素影响,包括硬件配置、数据分布、索引策略、查询复杂性和并发用户数量等。优化这些因素可以提升数据仓库的响应时间和数据处理能力。 数据仓库的应用广泛,常见于金融领域的业绩分析、零售业的销售趋势分析、医疗保健的病患记录研究等。通过整合来自多个系统的数据,数据仓库能提供全面的业务视图,帮助决策者制定战略。 数据挖掘是数据仓库应用的一个关键方面,它涉及到从大量数据中发现有价值的信息和模式。数据挖掘技术包括分类、聚类、关联规则学习、序列模式挖掘和预测等。随着大数据和人工智能的发展,数据挖掘的趋势正朝着深度学习、流数据挖掘和半监督学习等方向发展。 数据挖掘应用平台通常是集成工具,如RapidMiner、SPSS Modeler等,它们提供图形化的界面,让用户无需编写代码即可进行数据预处理、模型构建和结果评估。这些平台在科学研究、市场营销、风险评估等领域都有广泛应用,并且经常与数据仓库系统结合,形成端到端的数据分析解决方案。 总结来说,数据仓库与数据挖掘是现代企业决策支持系统的核心组成部分。通过理解并有效地利用这两个领域的理论和技术,企业可以提升数据驱动的洞察力,从而提高竞争力。

SELECT PIS.SHOW_FLT_DETAIL AS SHOW_FLT_DETAIL -- new , PIS.SHOW_AWB_DETAIL AS SHOW_AWB_DETAIL -- new , PIS.DISPLAY_AIRLINE_CODE AS CARRIER_CODE , DECODE(PIS.REVERT_FLOW,'N',PIS.FLOW_TYPE,DECODE(PIS.FLOW_TYPE,'I','E','I')) AS FLOW_TYPE , PIS.SHIP_TO_LOCATION AS SHIP_TO_LOCATION , PIS.INVOICE_SEQUENCE AS INVOICE_SEQUENCE , PFT.FLIGHT_DATE AS FLIGHT_DATE , PFT.FLIGHT_CARRIER_CODE AS FLIGHT_CARRIER_CODE , PFT.FLIGHT_SERIAL_NUMBER AS FLIGHT_SERIAL_NUMBER , PFT.FLOW_TYPE AS AIRCRAFT_FLOW , FAST.AIRCRAFT_SERVICE_TYPE AS AIRCRAFT_SERVICE_TYPE , PPT.AWB_NUMBER AS AWB_NUMBER , PPT.WEIGHT AS WEIGHT , PPT.CARGO_HANDLING_OPERATOR AS CARGO_HANDLING_OPERATOR , PPT.SHIPMENT_PACKING_TYPE AS SHIPMENT_PACKING_TYPE , PPT.SHIPMENT_FLOW_TYPE AS SHIPMENT_FLOW_TYPE , PPT.SHIPMENT_BUILD_TYPE AS SHIPMENT_BUILD_TYPE , PPT.SHIPMENT_CARGO_TYPE AS SHIPMENT_CARGO_TYPE , PPT.REVENUE_TYPE AS REVENUE_TYPE , PFT.JV_FLIGHT_CARRIER_CODE AS JV_FLIGHT_CARRIER_CODE , PPT.PORT_TONNAGE_UID AS PORT_TONNAGE_UID , PPT.AWB_UID AS AWB_UID , PIS.INVOICE_SEPARATION_UID AS INVOICE_SEPARATION_UID , PFT.FLIGHT_TONNAGE_UID AS FLIGHT_TONNAGE_UID FROM PN_FLT_TONNAGES PFT , FZ_AIRLINES FA , PN_TONNAGE_FLT_PORTS PTFP , PN_PORT_TONNAGES PPT , FF_AIRCRAFT_SERVICE_TYPES FAST , SR_PN_INVOICE_SEPARATIONS PIS --new , SR_PN_INVOICE_SEP_DETAILS PISD--new , SR_PN_INV_SEP_PORT_TONNAGES PISPT --new WHERE PFT.FLIGHT_OPERATION_DATE >= trunc( CASE :rundate WHEN TO_DATE('01/01/1900', 'DD/MM/YYYY') THEN ADD_MONTHS(SYSDATE,-1) ELSE ADD_MONTHS(:rundate,-1) END, 'MON') AND PFT.FLIGHT_OPERATION_DATE < trunc( CASE :rundate WHEN TO_DATE('01/01/1900', 'DD/MM/YYYY') THEN TRUNC(SYSDATE) ELSE TRUNC(:rundate) END, 'MON') AND PFT.TYPE IN ('C', 'F') AND PFT.RECORD_TYPE = 'M' AND (PFT.TERMINAL_OPERATOR NOT IN ('X', 'A') OR (PFT.TERMINAL_OPERATOR <> 'X' AND FA.CARRIER_CODE IN (SELECT * FROM SPECIAL_HANDLING_AIRLINE) AND PPT.REVENUE_TYPE IN (SELECT * FROM SPECIAL_REVENUE_TYPE) AND PPT.SHIPMENT_FLOW_TYPE IN (SELECT * FROM SPECIAL_SHIPMENT_FLOW_TYPE) AND PFT.FLIGHT_OPERATION_DATE >= (select EFF_DATE from SPECIAL_HANDLING_EFF_DATE) )) AND PFT.DELETING_DATETIME IS NULL AND FA.AIRLINE_UID = PFT.AIRLINE_UID AND FA.DELETING_DATETIME IS NULL AND PTFP.FLIGHT_TONNAGE_UID = PFT.FLIGHT_TONNAGE_UID AND PTFP.RECORD_TYPE = 'M' AND PTFP.DELETING_DATETIME IS NULL AND PPT.TONNAGE_FLIGHT_PORT_UID (+)= PTFP.TONNAGE_FLIGHT_PORT_UID AND PPT.RECORD_TYPE (+)= 'M' AND PPT.DISCREPANCY_TYPE (+)= 'NONE' AND PPT.ADJUSTMENT_INC_FLAG (+)= 'Y' AND PPT.DELETING_DATETIME (+) IS NULL AND FAST.AIRCRAFT_SERVICE_TYPE_UID = PFT.AIRCRAFT_SERVICE_TYPE_UID AND FAST.DELETING_DATETIME IS NULL AND PIS.TEMPORAL_NAME = TO_CHAR((CASE :rundate --new WHEN TO_DATE('01/01/1900', 'DD/MM/YYYY') THEN TRUNC(SYSDATE) ELSE TRUNC(:rundate) END ), 'YYYYMM') || '00' AND PIS.INVOICE_SEPARATION_UID = PISD.INVOICE_SEPARATION_UID --new AND PISD.INVOICE_SEP_DETAIL_UID = PISPT.INVOICE_SEP_DETAIL_UID --new AND PISPT.PORT_TONNAGE_UID = PPT.PORT_TONNAGE_UID --new AND PIS.PRINT_SUPPORTING_DOC = 'Y';上面是oracle的写法,请转成spark SQL的写法。

2023-06-02 上传