架构设计中的数据权衡与折腾：缓存、CDN与性能优化

网络

需积分: 0 195 浏览量更新于2024-08-05 收藏 546KB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

"朱晔的互联网架构实践心得S1E10：数据的权衡和折腾【系列完】本文深入探讨了在架构设计中关于数据的权衡决策以及数据流转中的挑战。作者强调了在面对鱼与熊掌不可兼得的情况时，如何通过舍弃某些方面来获取其他优势。文章主要围绕空间与时间的权衡、数据缓存、IO缓冲、内容分发网络(CDN)、数据存储优化和面向查询及输出的优化等关键概念展开。 1. 空间与时间的权衡：在架构设计中，经常需要在存储空间和性能之间做出妥协。例如，使用缓存技术（如CPU多级缓存、操作系统页面缓存）来换取更快的响应速度，牺牲一部分存储空间以提高整体系统性能。此外，通过IO缓冲，可以在短时间内积累数据，然后一次性提交，以减少频繁的IO操作，提升系统吞吐量。 2. 数据缓存：缓存策略是提高系统效率的关键，包括在内存中存储常用数据，减少对慢速存储的依赖。CDN（内容分发网络）也是一种缓存策略，它将数据放置在离用户更近的节点上，降低延迟，提升用户体验。 3. IO缓冲：在进行磁盘或网络IO操作时，缓冲区的使用能有效聚合小规模的数据操作，以提高整体效率。通过批量处理，即使单次执行性能未提升，也能显著增加系统的并发能力。 4. 数据面向查询存储：为了优化查询性能，数据通常按照特定的结构（如日志存储、LSM树、B+树）组织，牺牲部分写入性能以提升读取速度。这种预处理和排序使得数据检索更为高效。 5. 面向输出优化：物化视图是此策略的一个实例，预先计算并存储常用查询结果，避免了运行时的复杂关联操作。在微博系统中，每个用户都有自己的信息流队列，新内容发布时直接推送到队列，减少了查询时的计算负担。文章最后总结了系列内容，并预告了未来可能探讨的主题，展示了作者在互联网架构设计领域的深度思考和实践经验。通过这些策略，开发者和架构师能够在不同的场景下找到最佳的数据处理方案，以满足性能、可用性和成本的要求。

资源详情

资源推荐

朱晔的互联网架构实践心得 S1E10：数据的权衡和折腾【系列完】

【下载本文 PDF 进行阅读】

本文站在数据的维度谈一下在架构设计中的一些方案对数据的权衡以及数据流转过程中的折腾

这两个事情。最后进行系列文章的总结和之后系列文章写作计划的一些展望。

数据的权衡

正所谓鱼和熊掌不能兼得，舍了才能得。架构或技术设计方案中针对数据这个事情，有太多体

现了权衡思想的地方。

空间和时间

我们来想想有哪些广义上空间换时间（性能）的例子，也就是通过使用更多的存储或内存空间

加快了任务的单次执行速度或总体吞吐量：

• 让数据在更快的地方：也就是缓存。速度和价格本来就是矛盾的，我们不可能 10 万买到

百公里加速在 4 秒内的高性能跑车。存储虽便宜但是速度慢，内存虽然贵但是速度快，使

用级联的缓存存储方案我们可以在这当中做一个平衡。不仅仅是架构设计上我们几乎都会

用到缓存，CPU 会有多级缓存，OS 也有页面缓存机制。

• 让数据一次性提交：也就是缓冲。在进行 IO 操作的时候，真正和磁盘和网络交互之前，

我们往往都会建立缓冲区。在大多数的时候进行 IO 操作对于 10 字节和 100 字节的数据需

要的 IO 时间是一样的，我们可以在缓冲区进行短时间的数据累积后一次性进行操作，这

种做法不一定能提高单次执行性能但是可以增加吞吐（对于繁忙的系统，吞吐达到瓶颈后

单次的执行会排队，所以反过来也可以认为提高单次性能）。

• 让数据更靠近用户：CDN 就是一个典型应用。让数据离用户更近意味数据不需要经过太多

的机房和链路交换就可以到达用户终端，显然可以提高访问性能。其实说白了就是让数据

在离用户更近的地方缓存一份，在客户端缓存也算。

• 让数据面向查询存储：相对于面向存储优化。常见的存储数据结构上，我们知道写入性能

最好的是追加文件的日志存储，然后是 LSM 树然后是 B+树，读取性能则反过来。为了性

能我们通常会在保存数据时候进行一定的排序分类然后按一定的数据结构保存，而不仅仅

是把原始信息存下来，这样在查询搜索的时候避免了数据全扫。这些特殊的（甚至有的时

候是额外的）数据结构的维护也体现了空间换时间。

下载后可阅读完整内容，剩余5页未读，立即下载

甜甜不加糖

粉丝: 33
资源: 323

架构设计中的数据权衡与折腾：缓存、CDN与性能优化

敏感点和权衡点1

项目数据分析构架需要权衡四大要素.docx

CRC 多项式阶数越高，漏检概率越低，即校验性能越好，但带来的结 果就是数据传输效率的降低。如何权衡差错控制下的校验性能和传输效率?

工业数据孪生和数据看板优缺点

云上数据和云下数据有什么区别

ncl模式FNL 1°和FNL 0.25°驱动数据对模拟的影响

无锁数据结构一定比有锁数据结构性能好吗？无等待数据结构一定比无锁数据结构性能好吗？

生态系统服务评估与权衡(invest)模型(3.2.0 版本) 使用手册

IP数据报中的首部检验和并不检验数据报中的数据。这样做的最大好处是什么? 坏处是什么?

数据结构的设计原则和选择依据

HBASE和hdfs的关系，HFile文件过多对集群有什么影响？如何解决？简单描述对应的方法及如何权衡

UNET验证集和训练集数据个数有关吗

知识蒸馏使用全量训练数据和部分数据的差别

雷达不断生成的点云数据用什么数据结构存储

怎么减少coco2017数据集的数量

sql 解析压缩数据是不是不好解析

如何保证redis缓存和数据库数据的一致性

数据仓库中，宽表一般有多少个字段

为什么数据库表里要用json数据

训练神经网络数据预处理

最新资源

CRC 多项式阶数越高，漏检概率越低，即校验性能越好，但带来的结果就是数据传输效率的降低。如何权衡差错控制下的校验性能和传输效率?