"微医天津数仓工作介绍与优化思路"

需积分: 1 159 浏览量更新于2023-12-25 1 收藏 246KB PPTX 举报

数仓工作是指对公司内部数据进行采集、清洗、建模、开发和应用的一系列流程。这项工作涉及到数据业务、数据源梳理与记录、数据采集、数据清洗、数据建模、宽表、算法、报表开发、数据应用、数据质量、任务血缘、表血缘关系、任务依赖、任务运维、任务调度、字段血缘关系、元数据管理、数据资产管理等多个方面。在进行这项工作时，需要考虑数据采集的时效性划分，结构化划分以及采集方式划分。数据采集的目的是为了获取可用、能够服务最终应用分析的数据。在数仓工作中，常用的开发语言包括SQL、Python、Java等。这些语言可以根据不同的需求和任务进行灵活搭配，以满足数据处理、分析和应用的需要。同时，在数据架构和大数据组件的选择上，需要考虑各个组件的优缺点以及适用场景。例如，Hadoop是一个开源的分布式存储和计算系统，适用于海量数据的存储和处理；Spark是一个快速的通用计算系统，适用于数据处理、机器学习和实时数据处理等场景。需求开发的时间取决于具体的需求内容和复杂程度。一般来说，需求开发的时间会根据业务需求和数据处理的复杂程度进行合理安排和预估。在数仓工作中，数据的工作价值和数据价值是至关重要的。通过数据工作，可以帮助公司更好地理解业务、优化决策、提高效率、提升用户体验等，进而为公司创造更多的商业价值。数仓工作可分为基础数据工作和复杂数据工作。基础数据工作主要包括数据采集、清洗、建模等基础工作，而复杂数据工作则涉及到更多的数据应用和算法开发等复杂任务。在本地化数据工作中，重点是对天津目前数据架构进行分析和整理，同时需要针对当前公司的本地化数据架构提出改进和优化的思路。综合考虑公司需求和市场现状，在天津目前的数据架构中，应当结合本地实际情况，借鉴先进的技术和理念，采用适当的大数据组件和架构框架，以满足公司未来数据处理和应用的需求。在当前公司的本地化数据架构中，应当注重根据不同业务场景和需求来选择合适的数据组件和技术，同时也需要注重数据的质量和价值。总的来说，数仓工作在当今企业数据处理和应用中扮演着重要的角色，通过合理的数据架构和开发流程，可以促进企业的数据驱动决策，提升竞争力，创造更多的商业价值。因此，对数仓工作内容、流程、技术选择等方面进行深入的研究和思考，将有利于提高企业数据的管理和应用水平，为企业的可持续发展提供有力支持。

数仓工作内容和流程

● 数据清洗

① 选择子集：在数据分析的过程中，有可能数据量会非常大，但并不是每一列都有分析的价值，这

时候就要从这些数据中选择有用的子集进行分析，这样才能提高分析的价值和效率。

② 列名重命名：在数据分析的过程中，有些列名和数据容易混淆或者让人产生歧义。

③ 缺失值处理：获取的数据中很可能存在这缺失值，这会对分析的结果造成影响。

④ 数据类型转换：日期、时间、数值、

⑤ 数据去重：重复数据。

⑥ 异常值处理：不在数据范围内，比如年龄超过1000岁，手机号不符合11位，疾病编码不符合要

求，字符串前后空格、特殊字符等等。

剩余24页未读，继续阅读

有语忆语

粉丝: 814
资源: 4

"微医天津数仓工作介绍与优化思路"

网易云音乐数仓建设与流量数据治理实践

Flink构建实时数仓教程全解析

知乎实时数仓演进：从Spark到Flink的架构升级与未来展望

数仓4.0笔记2022-02-07

Flink + TiDB，体验实时数仓之美.pdf

Oracle 9i Client （Oracle 9i 客户端） 简化版 (不安装Oracle客户端,也可以使用PLSQL Developer)

9-5+快看漫画数仓中台业务赋能实践.pdf

Flink实时数仓搭建教程：2022年最新版本解析

企业大数据平台数仓架构解析

vCardEditor：简化版vCard文件编辑工具

最新资源

Oracle 9i Client （Oracle 9i 客户端）简化版 (不安装Oracle客户端,也可以使用PLSQL Developer)