没有合适的资源?快使用搜索试试~ 我知道了~
首页Apache atlas使用说明文档.pdf(转载分享请注明出处)
元数据管理apache atlas 自己总结的使用说明文档。主要包括Apache atlas 第一章: Apache atlas简介 1.1 apache atlas 架构介绍 2 1.1.1核心组件Core 2 1.1.2 Integration 4 1.1.3 Metadata source 4 1.1.4 应用领域 4 .2 apache atlas基本功能 4 第二章: Atlas Admin UI 使用介绍 5 2.1 Search 5 2.1.1 BASE SEARCH 5 2.1.2 Advanced search 6 2.1.3创建实体 7 2.1.4 Lineage 7 2.2 Classification 8 2.2.1 为实体添加分类 8 2.3 Glossary 8 2.3.1术语视图 10 2.3.2分类视图 12 2.3.3术语分配流程 15 2.3.4 使用术语搜索 16 第三章:Atalas API 使用介绍 16 3.1 Admin rest API 16 3.2 DiscoveryREST 17 3.3 TypesREST 17 3.4 EntityREST 18 3.5 LineageREST 18 第四章:源码编译与安装 18 4.1 源码下载与编译 18 4.2 源码编译与安装注意事项 19 4.3 Apache atlas 安装 19 第五章:hook引入(hive举例) 20 5.1配置文件修改 20 5.2 配置文件其他相关操作 21 第六章:Atlas 整合spark 22
资源详情
资源评论
资源推荐

Apache atlas
第一章: Apache atlas 简介
为寻求数据治理的开源解决方案,Hortonworks 公司联合其他厂商与用户于 2015 年发起数据治理倡议,
包括数据分类、集中策略引擎、数据血缘、安全和生命周期管理等方面。Apache Atlas 项目就是这个倡议的
结果,社区伙伴持续的为该项目提供新的功能和特性。该项目用于管理共享元数据、数据分级、审计、安
全性以及数据保护等方面,努力与 Apache Ranger 整合,用于数据权限控制策略。目前最新版本是 2.0.0.
.1 apache atlas 架构介绍
1.1.1 核心组件 Core
Type System: Apache Atlas 允许用户为他们想要管理的元数据对象定义一个模型,该模型被叫做“类型”。
类型的实例被称为“实体”,实体用来表示被管理的实际元数据对象类型系统是允许用户定义和管理类型和
实体的组件。。
例如:Atlas 本身自带的 hive_table 类
Name: hive_table
TypeCategory: Entity
SuperTypes: DataSet
Attributes:
name: string
db: hive_db
owner: string
createTime: date

lastAccessTime: date
comment: string
retention: int
sd: hive_storagedesc
partitionKeys: array<hive_column>
aliases: array<string>
columns: array<hive_column>
parameters: map<string>
viewOriginalText: string
viewExpandedText: string
tableType: string
temporary: boolean
从上面示例中可以看出,类由名称 name 唯一标识
类型具有元类型。Atlas 具有以下元类型:
• 基本元类型:boolean, byte, short, int, long, float, double, biginteger, bigdecimal, string, date
• 枚举
• 集合元类型: array, map
• 复合元类型:Entity, Struct, Classification, Relationship
Hive_table 类的一个实体
guid: "9ba387dd-fa76-429c-b791-ffc338d3c91f"
typeName: "hive_table"
status: "ACTIVE"
values:
name: “customers”
db: { "guid": "b42c6cfc-c1e7-42fd-a9e6-890e0adf33bc",
"typeName": "hive_db"
}
owner: “admin”
createTime: 1490761686029
updateTime: 1516298102877
comment: null
retention: 0
sd: { "guid": "ff58025f-6854-4195-9f75-3a3058dd8dcf",
"typeName":
"hive_storagedesc"
}
partitionKeys: null
aliases: null
columns: [ { "guid": "65e2204f-6a23-4130-934a-9679af6a211f",
"typeName": "hive_column" },
{ "guid": "d726de70-faca-46fb-9c99-cf04f6b579a6",
"typeName": "hive_column" },
...
]

parameters: { "transient_lastDdlTime": "1466403208"}
viewOriginalText: null
viewExpandedText: null
tableType: “MANAGED_TABLE”
temporary: false
实体类型的每个实例都由唯一标识符 GUID 标识。
定义对象时,此 GUID 由 Atlas 服务器生成,并且在实体的整个生命周期内保持不变。在任何时间点,都可
以使用其 GUID 访问此特定实体。
Ingest/Export:Ingest 组件允许将元数据添加到 Atlas。类似地,Export 组件暴露由 Atlas 检测到的元数
据更改,以作为事件引发,消费者可以使用这些更改事件来实时响应元数据更改。
Graph Engine:在内部,Atlas 保留使用 Graph 模型管理的元数据对象。这种方法提供了极大的灵活性,并
可以有效处理元数据对象之间的丰富关系。图引擎组件负责在 Atlas 类型系统的类型和实体以及基础图持
久性模型之间进行转换。除了管理图形对象外,图形引擎还为元数据对象创建适当的索引,以便可以有效
地搜索它们。Atlas 使用 JanusGraph 存储元数据对象。
1.1.2 Integration
用户可以使用两种方法整合管理 Atlas 中的元数据:
⚫ API:Atlas 的所有功能都可以通过 REST API 提供给最终用户,允许创建,更新和删除类型和实体。
它也是查询和发现通过 Atlas 管理的类型和实体的主要方法。
⚫ Messaging:除了 API 之外,用户还可以选择使用基于 Kafka 的消息接口与 Atlas 集成。这对于将
元数据对象传输到 Atlas 以及从 Atlas 使用可以构建应用程序的元数据更改事件都非常有用。如果
希望使用与 Atlas 更松散耦合的集成,这可以允许更好的可扩展性,可靠性等,消息传递接口是特别
有用的。Atlas 使用 Apache Kafka 作为通知服务器用于钩子和元数据通知事件的下游消费者之间的
通信。事件由钩子(hook)和 Atlas 写到不同的 Kafka 主题:
1.1.3 Metadata source
Atlas 支持与许多元数据源的集成,将来还会添加更多集成。目前,Atlas 支持从以下数据源获取和管理元
数据:
⚫ Hive:通过 hive-brige,atlas 可以接入 Hive 的元数据,包括 hive_db,hive_table,hive_column,hive_process
⚫ Sqoop:通过 sqoop-brige,atlas 可以接入关系型数据库的元数据。
⚫ kafka:通过 kafka-brige 接入
⚫ Storm:通过 strom-brige 可以接入流式处理的元数据
Atlas 集成大数据组件的元数据源需要实现以下两点:
首先,需要基于 atlas 的类型系统定义能够表达大数据组件元数据对象的元数据模型(例如 Hive 的元数据模
型实现在 org.apache.atlas.hive.model.HiveDataModelGenerator;
然后,需要提供 hook 组件去从大数据组件的元数据源中提取元数据对象,实时侦听元数据的变更并反馈给
atlas;
1.1.4 应用领域
Atlas Admin UI:此组件是一个基于 Web 的应用程序,允许数据管理员和科学家发现和注释元数据。这里
最重要的是搜索界面和类似 SQL 的查询语言,可用于查询 Atlas 管理的元数据类型和对象。管理员界面使

用 Atlas 的 REST API 来构建其功能。
Tag Based Policies: Apache Ranger 是针对 Hadoop 生态系统的高级安全管理解决方案,与各种 Hadoop 组件
广泛集成。通过与 Atlas 集成,Ranger 使安全管理员可以定义元数据驱动的安全策略以进行有效的管理。
Ranger 是 Atlas 通知的元数据更改事件的使用者。
.2 apache atlas 基本功能
⚫ 数据分类
定义、注释和自动捕获数据集和底层之间的关系元素包括源、目标和派生过程
⚫ 安全审计
数据访问的日志审计
⚫ 搜索和血缘关系
元数据信息及数据之间的血缘关系
⚫ 安全与策略引擎
结合 ApacheRanger 来设置数据的访问权限
第二章: Atlas Admin UI 使用介绍
Atlas admin UI 包括三部分:SEARCH,CLASSIFICATION,GLOSSARY
2.1 Search
Search 模块包括 Base Search、Advanced Search 两种 Entity 查询功能和 Entity 创建功能。
2.1.1 BASE SEARCH
⚫ 基本搜索使您可以使用实体的类型名,关联的分类/标签进行查询,并支持对实体属性以及分类/标签
属性进行过滤。
可以使用以下 JSON 结构(称为!SearchParameters)来表示整个查询结构。
typeName: the type of entity to look for

excludeDeletedEntities: should the search exclude deleted entities? (default: true)
classification: only include entities with given classification
query: any free text occurrence that the entity should have
(generic/wildcard queries might be slow)
offset: starting offset of the result set (useful for pagination)
limit: max number of results to fetch
entityFilters: entity attribute filter(s)
tagFilters: classification attribute filter(s)
attributes: attributes to include in the search result
支持的运算符过滤
⚫ LT(符号:<,lt)与数字,日期属性一起使用
⚫ GT(符号:>,gt)可用于数字,日期属性
⚫ LTE(符号:<=,lte)可用于数字,日期属性
⚫ GTE(符号:> =,gte)可与数字,日期属性一起使用
⚫ EQ(符号:eq,=)可用于数值,日期,字符串属性
⚫ NEQ(符号:neq,! =)可用于数字,日期,字符串属性
⚫ LIKE(符号:like,LIKE)与 String 属性一起使用
⚫ STARTS_WITH(符号:startsWith,STARTSWITH)可用于 String 属性
⚫ ENDS_WITH(符号:endsWith,ENDSWITH)可用于字符串属性
⚫ CONTAINS(符号:包含,CONTAINS)与 String 属性一起使用
2.1.2 Advanced search
Atlas 中的高级搜索也称为基于 DSL 的搜索。
DSL 是一种具有简单结构的语言,可以帮助用户浏览 Atlas 数据存储库。该语法粗略地模拟了关系数据库
世界中流行的结构化查询语言(SQL)。
⚫ 语法介绍:
1. FROM 语法 example:from db,
2. Where 语法 example:
a) from Table where name = 'time_dim' or name = 'customer_dim'
b) from Table where name = ["customer_dim", "time_dim"]
c) from Table where name LIKE '*_dim'
d) DB where name like "R???rt?*"
剩余20页未读,继续阅读
















安全验证
文档复制为VIP权益,开通VIP直接复制

评论3