"在腾讯云上体验clickhouse分布式集群部署与配置指南"

需积分: 0 156 浏览量更新于2023-12-16 收藏 2.85MB DOCX 举报

我对于腾讯云上的 clickhouse 大数据组件进行了初次体验。在这次体验中，我购买了一台位于广州三区的 CVM，并通过内网方式访问了这个 clickhouse 集群。此外，我还创建了一个由两个节点组成的集群，用于存储和处理大数据。为了实现分布式的库表，我在每个节点上创建了相同的本地表。这些本地表的表引擎都被指定为 MergeTree，它能够有效地管理和处理大规模的数据。此外，我还在每个节点上创建了 Distributed 表。这些分布式表本身并不存储数据，而是将多个本地表合并为一个整体，类似于 MySQL 中的 merge 表或者视图的概念。例如，我创建了一个名为 `tutorial.hits_v1` 的本地表，其中包含了一些列，如 `WatchID` 和 `JavaEnable`。这个本地表的引擎被指定为 MergeTree，并按照 `EventDate` 字段进行了分区。此外，还定义了一个采样规则，通过对 `UserID` 进行哈希后的值进行采样。另外，我还创建了一个名为 `tutorial.hits_v1_all` 的分布式表。这个表和之前的本地表具有相同的列，如 `WatchID` 和 `JavaEnable`。但是需要注意的是，分布式表不存储任何数据，它仅仅是多个本地表的合并。通过使用分布式表，我可以在整个集群上进行查询和分析，而不需要关心实际数据存储在哪个节点上。通过这次初次体验，我对于 clickhouse 的大数据组件有了初步的了解。我了解到 clickhouse 可以通过建立分布式表和本地表的方式来处理大规模数据。这种分布式表的设计可以提高系统的可扩展性和灵活性，使得数据的管理和查询变得更加高效和方便。总的来说，腾讯云上的 clickhouse 大数据组件提供了一种有效处理大规模数据的解决方案。通过合理设计和配置分布式和本地表，我们可以利用 clickhouse 实现高效的数据存储和查询。我对于 clickhouse 的初次体验给我留下了深刻的印象，我期待在将来的工作中能够更深入地学习和应用这个强大的大数据组件。

a) 矩阵的 QR 分解

b) 主成分分析 PCA

c) 奇异值分解 SVD

2、数据的预处理

a) One-hot 编码

b) 均值中心化处理

c) 归一化+均值中心化处理

3、回归算法

4、聚类算法

5、推荐算法

mllib

spark 体系下的机器学习库，直接拷贝官网上的文字，看起来比 mahout 支持的更丰富：

ML algorithms include:

� Classification: logistic regression, naive Bayes,...

� Regression: generalized linear regression, survival regression,...

� Decision trees, random forests, and gradient-boosted trees

� Recommendation: alternating least squares (ALS)

� Clustering: K-means, Gaussian mixtures (GMMs),...

� Topic modeling: latent Dirichlet allocation (LDA)

� Frequent itemsets, association rules, and sequential pattern mining

� Distributed linear algebra: SVD, PCA,...

� Statistics: summary statistics, hypothesis testing,...

机器学习的库很多，可能 mllib、mahout 的主要特点是分布式实现，类似深度学习里吵得很火的联邦学习。

使用梯度下降的机器学习算法的分布式实现

知乎网友：联邦学习（Federated Learning）实际上是一种加密的分布式机器学习技术，参与各方可以在

不披露底层数据和底层数据的加密（混淆）形态的前提下共建模型。它可以实现各个企业的自有数据不出

剩余21页未读，继续阅读

小米智能生活

粉丝: 46
资源: 300

"在腾讯云上体验clickhouse分布式集群部署与配置指南"

大数据入门1

大数据入门一

大数据所需要的组件部分一

阿里大数据架构

Confluent之Kafka Connector初体验.doc

DFS命令行工具操作Hadoop分布式集群初体验

岑文初：淘宝开放平台架构设计与实践ppt讲稿

操作系统的未来1 清华剑客 打造操作系统未来

【Hadoop集群搭建初体验】：从零开始构建基于ResourceManager的Hadoop环境

大数据框架深度剖析：MapReduce的优势与挑战，如何在金融与电信行业应用

最新资源

操作系统的未来1 清华剑客打造操作系统未来