Griffin集成Livy Kerberos部署指南:解决开源问题与实战部署
需积分: 19 178 浏览量
更新于2024-07-09
收藏 978KB DOCX 举报
Apache Griffin 是一款由 eBay 开源的数据质量检测工具,它旨在与 Apache Livy、Spark、Hive 和 HDFS 等大数据组件集成,用于监控和确保数据的准确性和一致性。然而,由于开源代码的质量问题以及不够友好的错误日志,部署过程中可能会遇到诸多挑战。本文档详尽地记录了作者在部署过程中遇到的问题和解决步骤,主要包括以下几个关键部分:
1. **操作系统配置**:首先,为Livy服务创建专用用户,并可能通过LDAP进行身份管理。其次,调整文件权限,将livy文件夹的所有权设置为livy用户,以便正确管理文件。接着,配置log和run目录,以支持Livy的日志和运行时文件。
2. **Livy配置**:涉及到修改livy.conf文件,如设置Kerberos相关的认证属性,这对于安全访问Hadoop集群至关重要。
3. **HDFS配置**:调整HDFS配置以适应Livy的使用,包括可能的HDFS与Kerberos的集成,以确保数据的安全传输。
4. **Livy的Kerberos集成**:在KDC节点上为Livy设置Kerberos凭据,并将keytab文件复制到配置文件夹,以实现安全的交互。
5. **Griffin配置**:修改application.properties、sparkProperties.json等核心配置文件,同时涉及类文件如HiveMetaStoreProxy和HiveMetaStoreServiceJdbcImpl的初始化方法,以适配Griffin的需求。对于使用Elasticsearch作为存储引擎的情况,需对特定的Java类(如MetricStoreImpl和ElasticSearchSink.scala)进行定制。
6. **正则表达式校验问题**:发现前端与后端的正则表达式处理不匹配,这可能需要开发者的介入以修复。
7. **Angular应用的修改**:涉及修改Angular应用的组件和打包后的JavaScript文件,以适应Griffin的UI需求。
8. **数据库操作**:在MySQL中创建表,包括官方提供的SQL脚本,但可能需要额外创建DATACONNECTOR表。
9. **Maven编译和部署**:在IDEA中使用maven命令进行编译和打包,如果依赖包下载失败,需要手动下载并安装。打包完成后,将Griffin的jar包上传至HDFS,并配置相关的目录结构。
10. **Hive-site.xml和数据存储**:上传hive-site.xml配置文件,并准备checkpoint和persist文件夹来存储metric数据。
11. **启动Griffin**:最后,提供启动Griffin的方法,可以考虑直接在IDEA中执行启动命令。
这份文档提供了一个完整的指南,帮助读者在面临开源代码质量问题和复杂配置的情况下,成功部署和集成Apache Griffin与相关的大数据组件,确保数据质量检查的顺利进行。
2021-04-16 上传
2021-07-20 上传
2021-05-01 上传
2021-09-26 上传
2019-07-19 上传
2021-10-09 上传
2021-11-23 上传
2022-03-10 上传
2021-03-20 上传
黑幕Zz
- 粉丝: 8
- 资源: 28
最新资源
- zlib-1.2.12压缩包解析与技术要点
- 微信小程序滑动选项卡源码模版发布
- Unity虚拟人物唇同步插件Oculus Lipsync介绍
- Nginx 1.18.0版本WinSW自动安装与管理指南
- Java Swing和JDBC实现的ATM系统源码解析
- 掌握Spark Streaming与Maven集成的分布式大数据处理
- 深入学习推荐系统:教程、案例与项目实践
- Web开发者必备的取色工具软件介绍
- C语言实现李春葆数据结构实验程序
- 超市管理系统开发:asp+SQL Server 2005实战
- Redis伪集群搭建教程与实践
- 掌握网络活动细节:Wireshark v3.6.3网络嗅探工具详解
- 全面掌握美赛:建模、分析与编程实现教程
- Java图书馆系统完整项目源码及SQL文件解析
- PCtoLCD2002软件:高效图片和字符取模转换
- Java开发的体育赛事在线购票系统源码分析