Griffin集成Livy Kerberos部署指南：解决开源问题与实战部署

需积分: 19 178 浏览量更新于2024-07-09 收藏 978KB DOCX 举报

Apache Griffin 是一款由 eBay 开源的数据质量检测工具，它旨在与 Apache Livy、Spark、Hive 和 HDFS 等大数据组件集成，用于监控和确保数据的准确性和一致性。然而，由于开源代码的质量问题以及不够友好的错误日志，部署过程中可能会遇到诸多挑战。本文档详尽地记录了作者在部署过程中遇到的问题和解决步骤，主要包括以下几个关键部分： 1. **操作系统配置**：首先，为Livy服务创建专用用户，并可能通过LDAP进行身份管理。其次，调整文件权限，将livy文件夹的所有权设置为livy用户，以便正确管理文件。接着，配置log和run目录，以支持Livy的日志和运行时文件。 2. **Livy配置**：涉及到修改livy.conf文件，如设置Kerberos相关的认证属性，这对于安全访问Hadoop集群至关重要。 3. **HDFS配置**：调整HDFS配置以适应Livy的使用，包括可能的HDFS与Kerberos的集成，以确保数据的安全传输。 4. **Livy的Kerberos集成**：在KDC节点上为Livy设置Kerberos凭据，并将keytab文件复制到配置文件夹，以实现安全的交互。 5. **Griffin配置**：修改application.properties、sparkProperties.json等核心配置文件，同时涉及类文件如HiveMetaStoreProxy和HiveMetaStoreServiceJdbcImpl的初始化方法，以适配Griffin的需求。对于使用Elasticsearch作为存储引擎的情况，需对特定的Java类（如MetricStoreImpl和ElasticSearchSink.scala）进行定制。 6. **正则表达式校验问题**：发现前端与后端的正则表达式处理不匹配，这可能需要开发者的介入以修复。 7. **Angular应用的修改**：涉及修改Angular应用的组件和打包后的JavaScript文件，以适应Griffin的UI需求。 8. **数据库操作**：在MySQL中创建表，包括官方提供的SQL脚本，但可能需要额外创建DATACONNECTOR表。 9. **Maven编译和部署**：在IDEA中使用maven命令进行编译和打包，如果依赖包下载失败，需要手动下载并安装。打包完成后，将Griffin的jar包上传至HDFS，并配置相关的目录结构。 10. **Hive-site.xml和数据存储**：上传hive-site.xml配置文件，并准备checkpoint和persist文件夹来存储metric数据。 11. **启动Griffin**：最后，提供启动Griffin的方法，可以考虑直接在IDEA中执行启动命令。这份文档提供了一个完整的指南，帮助读者在面临开源代码质量问题和复杂配置的情况下，成功部署和集成Apache Griffin与相关的大数据组件，确保数据质量检查的顺利进行。

"process.interval": "5m",

"config": {

"spark.default.parallelism": 4,

"spark.task.maxFailures": 5,

"spark.streaming.kafkaMaxRatePerPartition": 1000,

"spark.streaming.concurrentJobs": 4,

"spark.yarn.maxAppAttempts": 5,

"spark.yarn.am.attemptFailuresValidityInterval": "1h",

"spark.yarn.max.executor.failures": 120,

"spark.yarn.executor.failuresValidityInterval": "1h",

"spark.hadoop.fs.hdfs.impl.disable.cache": true

}

"sinks": [

{

"name": "CONSOLE",

"type": "CONSOLE",

"config": {

"max.log.lines": 100

}

{

"name": "HDFS",

"type": "HDFS",

"config": {

"path": "hdfs://your_ip_host1:8020/griffin/persist",

"max.persist.lines": 10000,

"max.lines.per.file": 10000

}

{

"name": "ELASTICSEARCH",

"type": "ELASTICSEARCH",

"config": {

"method": "post",

"api": "http://10.**.*.**:9200/griffin"

}

"griffin.checkpoint": [

{

"name": "zk_name",

"type": "zk",

剩余27页未读，继续阅读

黑幕Zz

粉丝: 8
资源: 28

Griffin集成Livy Kerberos部署指南：解决开源问题与实战部署

spark_livy_java_rest_api:在Java中使用REST API在Kerberos和SSL中使用Livy提交Spark作业

01_大数据项目之电商数仓_用户行为采集平台.docx

数据仓库学习.docx

PHP—数组.docx

Griffin.WebServer.zip

PHP数组实例详解_.docx

会计学100篇经典文献.docx

金融国际化与自由化对台湾基层金融机构之影响.docx

Griffin-Lucas.github.io:互联网成为篮球鞋的首选目的地

Griffin.MvcContrib.zip

最新资源