Griffin集成Livy Kerberos部署指南:解决开源问题与实战部署

需积分: 19 5 下载量 178 浏览量 更新于2024-07-09 收藏 978KB DOCX 举报
Apache Griffin 是一款由 eBay 开源的数据质量检测工具,它旨在与 Apache Livy、Spark、Hive 和 HDFS 等大数据组件集成,用于监控和确保数据的准确性和一致性。然而,由于开源代码的质量问题以及不够友好的错误日志,部署过程中可能会遇到诸多挑战。本文档详尽地记录了作者在部署过程中遇到的问题和解决步骤,主要包括以下几个关键部分: 1. **操作系统配置**:首先,为Livy服务创建专用用户,并可能通过LDAP进行身份管理。其次,调整文件权限,将livy文件夹的所有权设置为livy用户,以便正确管理文件。接着,配置log和run目录,以支持Livy的日志和运行时文件。 2. **Livy配置**:涉及到修改livy.conf文件,如设置Kerberos相关的认证属性,这对于安全访问Hadoop集群至关重要。 3. **HDFS配置**:调整HDFS配置以适应Livy的使用,包括可能的HDFS与Kerberos的集成,以确保数据的安全传输。 4. **Livy的Kerberos集成**:在KDC节点上为Livy设置Kerberos凭据,并将keytab文件复制到配置文件夹,以实现安全的交互。 5. **Griffin配置**:修改application.properties、sparkProperties.json等核心配置文件,同时涉及类文件如HiveMetaStoreProxy和HiveMetaStoreServiceJdbcImpl的初始化方法,以适配Griffin的需求。对于使用Elasticsearch作为存储引擎的情况,需对特定的Java类(如MetricStoreImpl和ElasticSearchSink.scala)进行定制。 6. **正则表达式校验问题**:发现前端与后端的正则表达式处理不匹配,这可能需要开发者的介入以修复。 7. **Angular应用的修改**:涉及修改Angular应用的组件和打包后的JavaScript文件,以适应Griffin的UI需求。 8. **数据库操作**:在MySQL中创建表,包括官方提供的SQL脚本,但可能需要额外创建DATACONNECTOR表。 9. **Maven编译和部署**:在IDEA中使用maven命令进行编译和打包,如果依赖包下载失败,需要手动下载并安装。打包完成后,将Griffin的jar包上传至HDFS,并配置相关的目录结构。 10. **Hive-site.xml和数据存储**:上传hive-site.xml配置文件,并准备checkpoint和persist文件夹来存储metric数据。 11. **启动Griffin**:最后,提供启动Griffin的方法,可以考虑直接在IDEA中执行启动命令。 这份文档提供了一个完整的指南,帮助读者在面临开源代码质量问题和复杂配置的情况下,成功部署和集成Apache Griffin与相关的大数据组件,确保数据质量检查的顺利进行。