你是一个ETL工程师,请从工作职责和技术要点两个方面介绍你做的银行信用卡数据开发业务,从抽数开始,是基于hadoop大数据平台,并说说你主要负责的指标是什么,有哪些表
时间: 2023-12-21 16:06:58 浏览: 37
好的,下面我将从工作职责和技术要点两个方面介绍我做的银行信用卡数据开发业务,从抽数开始,基于Hadoop大数据平台,并讲述我主要负责的指标和表。
### 工作职责
作为一名ETL工程师,在银行信用卡数据开发业务中的主要工作职责包括:
1. 数据抽数:从银行信用卡的各个数据源中抽取数据,并将其导入到大数据平台中。我们使用了Sqoop工具来实现数据的批量导入。
2. 数据清洗:对数据进行清洗和预处理,包括去重、缺失值处理、异常值处理等。我们使用了Kettle工具来实现数据的清洗和转换。
3. 数据转换:将原始数据转换为目标格式,以满足业务需求。例如,将数据转换为Hive表格格式、Oracle数据表格式等。我们使用了Hive作为数据仓库,用于将数据存储在分布式文件系统中,并提供了SQL查询和分析能力。
4. 数据加载:将处理后的数据加载到目标数据库中。我们使用了Sqoop工具来实现数据的加载,可以将大量数据批量导入到目标数据库中。
5. 数据监控:对数据进行监控和管理,确保数据的质量和完整性。我们使用了FineBI工具来实现数据监控和报表生成。
### 技术要点
在银行信用卡数据开发业务中,我们使用了Hadoop大数据平台和多种工具和技术。下面是我们使用的一些主要技术要点:
1. Hadoop:我们使用Hadoop作为大数据平台,用于存储和处理海量数据。Hadoop提供了分布式计算和存储能力,可以支持我们处理大量数据。
2. Hive:我们使用Hive作为数据仓库,用于将数据存储在分布式文件系统中,并提供了SQL查询和分析能力。我们可以通过Hive来查询和分析数据。
3. Sqoop:我们使用Sqoop工具来实现数据的批量导入和导出。Sqoop可以将数据从关系型数据库中导入到Hadoop中,也可以将数据从Hadoop中导出到关系型数据库中。
4. Oracle:我们使用Oracle数据库来存储和管理数据。Oracle是一种强大的关系型数据库管理系统,可以支持我们管理大量数据。
5. Kettle:我们使用Kettle工具来实现数据清洗和