工业物联网下一站制造项目:数仓设计与数据采集详解

需积分: 0 0 下载量 165 浏览量 更新于2024-08-04 2 收藏 40KB MD 举报
今天我们将深入探讨"Day1007_数仓设计及数据采集"的主题,聚焦在一站式制造项目的数据处理与管理工作。该项目源于工业物联网背景下的加油站服务商数据分析平台,目标是通过优化数据采集、存储和分析,提升服务质量,合理规划成本。 首先,项目的主要需求包括: 1. **服务质量分析**:对安装、维修、巡检和改造工单进行深入剖析,以便提供针对性的服务改进策略。 2. **成本核算**:实现收益分析、报销管理和物料成本控制,帮助决策者做出更精准的财务决策。 技术选型方面,项目涉及的关键组件有: - **数据来源**:项目依赖Oracle的CRM、客服和报销系统,这些数据将成为后续处理的基础。 - **数据采集**:采用Sqoop从Oracle等异构数据源抽取数据到Hive数据仓库。 - **数据存储**:Hive作为数据仓库,用于长期存储和管理大量结构化数据。 - **数据计算**:SparkSQL被选为离线和实时分析工具,支持SQL查询语言。 - **数据应用**:MySQL用于日常交互式查询,而Grafana则用于数据可视化展示。 - **任务调度**:Airflow用于自动化工作流程和数据管道管理。 - **服务监控**:Prometheus被用来监控系统的性能和健康状况。 - **资源管理**:Docker容器技术被用于部署和管理各组件,提高效率和资源利用率。 接下来,我们讨论了Docker的基本操作,如启动、停止、进入和退出容器,以及解决DG连接问题,例如使用JDBC(Java Database Connectivity)连接Hive和SparkSQL,注意两者使用的端口不同,尽管可以共享一个网络,但在配置时需确保不冲突。 在CS模式(Client-Server模式)下,HiveServer2负责解析SQL,而Metastore作为服务端存储元数据;SparkSQL的ThriftServer同样处理SQL查询,但会转化为SparkCore程序执行。遇到SparkSQL的Thrift启动问题时,可能涉及到清理过期包,导入特定版本的Hive库,以及调整hive-site.xml文件设置。 这一系列知识点涵盖了从项目需求理解、技术栈选择到具体操作实践的全面内容,有助于理解和实施一个高效的数据仓库设计和数据采集流程。通过掌握这些技能,你将能够构建一个强大的数据分析平台,为业务增长和优化提供有力支持。

#!/bin/bash day1=$(date +%Y%m%d) day2=$(date -d "yesterday" +%Y%m%d) cd /ftpdata/receive/eda_in/in_1851 gunzip *.gz mv 10000_ACCOUNT_BASE_DB_${day1}_${day2}_D_00_0001.DAT /data/gbase/impdata/dws_db/dws_db_dws_in_1851_account_base.dat mv 10000_ACCOUNT_MANAGER_DB_${day1}_${day2}_D_00_0001.DAT /data/gbase/impdata/dws_db/dws_db_dws_in_1851_account_manager.dat mv 10000_CONSOLE_USER_DB_${day1}_${day2}_D_00_0001.DAT /data/gbase/impdata/dws_db/dws_db_dws_in_1851_console_user.dat mv 10000_REPORT_CRM_MASTER_ORDER_CONFIG_DB_${day1}_${day2}_D_00_0001.DAT /data/gbase/impdata/dws_db/dws_db_dws_in_1851_report_crm_master_order_config.dat mv 10000_INNER_ORDER_ITEM_DB_${day1}_${day2}_D_00_0001.DAT /data/gbase/impdata/dws_db/dws_db_dws_in_1851_inner_order_item.dat mv 10000_REPORT_RESOURCE_SCORE_DB_${day1}_${day2}_D_00_0001.DAT /data/gbase/impdata/dws_db/dws_db_dws_in_1851_report_resource_score.dat mv 10000_REPORT_PAYMENT_PLAN_PREVIEW_DB_${day1}_${day2}_D_00_0001.DAT /data/gbase/impdata/dws_db/dws_db_dws_in_1851_report_payment_plan_preview.dat mv 10000_ORDERS_ITEM_DEVELOPMENT_DETAIL_DB_${day1}_${day2}_D_00_0001.DAT /data/gbase/impdata/dws_db/dws_db_dws_in_1851_orders_item_development_detail.dat mv 10000_REPORT_ONE_CORD_ONE_PERSON_MANAGER_LIST_DB_${day1}_${day2}_D_00_0001.DAT /data/gbase/impdata/dws_db/dws_db_dws_in_1851_1code1person_manager_list.dat mv 10000_CLOUD_DB_${day1}_${day2}_D_00_0001.DAT /data/gbase/impdata/dws_db/dws_db_dws_in_1851_cloud.dat mv 10000_REPORT_OPOE_CUSTOMER_DB_${day1}_${day2}_D_00_0001.DAT /data/gbase/impdata/dws_db/dws_db_dws_in_1851_report_opoe_customer.dat mv 10000_CLOUD_ACTIVE_DB_${day1}_${day2}_D_00_0001.DAT /data/gbase/impdata/dws_db/dws_db_dws_in_1851_Cloud_active.dat mv 10000_BUSI_ORDER_DB_${day1}_${day2}_D_00_0001.DAT /data/gbase/impdata/dws_db/dws_db_dws_in_1851_busi_order.dat mv 10000_BUSI_ORDER_ITEM_DB_${day1}_${day2}_D_00_0001.DAT /data/gbase/impdata/dws_db/dws_db_dws_in_1851_busi_order_item.dat mv 10000_REPORT_IAM_IDENTITY_DB_${day1}_${day2}_D_00_0001.DAT /data/gbase/impdata/dws_db/dws_db_dws_in_1851_iam_identity.dat exit 0 什么意思

2023-07-14 上传