应用驱动数据中心计算:百度林仕鼎谈云计算技术

需积分: 10 4 下载量 65 浏览量 更新于2024-07-25 收藏 1.35MB PDF 举报
“第五届中国云计算大会百度林仕鼎分享了关于应用驱动的数据中心计算的主题,涉及到搜索引擎、数据挖掘、查询服务、网络爬虫、索引构建等关键领域,并探讨了高吞吐存储模型、去RAID化、直接I/O以及分布式系统等方面的技术细节。” 在第五届中国云计算大会上,百度的林仕鼎探讨了如何通过应用驱动来优化数据中心计算。他首先从搜索引擎的角度出发,阐述了数据中心计算的核心组成部分。搜索引擎的工作流程包括网页库、倒排表、数据挖掘、查询服务和网络爬虫等环节。这些功能要求数据中心能够高效处理大量数据的读写操作。 在数据存储方面,林仕鼎提出了基于日志的结构,这种结构利用批量Commit和流式读写来提升Block I/O的性能。通过将数据分块(Block)并存储在内存或磁盘上,可以最大化并行度,从而提高整体处理速度。他还提到去除RAID(冗余磁盘阵列),直接采用裸盘,利用Direct I/O技术,跳过文件系统,以减少中间层的开销,实现更高的存储吞吐量。 在讨论高吞吐的存储结构时,林仕鼎提到了Merge-Sort技术,用于生成排序流。通过对内存中的数据进行排序,然后将排序后的数据写入磁盘,形成SortedStream,进一步优化查询效率。这个过程包括内存中的数据合并、磁盘上的数据块更新以及最终的Merge-Sort操作。 林仕鼎还探讨了存储系统的三层结构,包括基础流(BaseStream)、修改流(ModStream)和索引流(IndexStream)。在设计存储系统时,需要考虑分区策略、复制粒度的选择,以及这些决策对系统复杂度、数据交换成本和可靠性的影响。当转变为分布式系统时,虽然会增加三倍的Commit开销,但本地I/O的优势可以带来显著的性能提升。 林仕鼎的演讲强调了应用需求在数据中心计算中的主导地位,以及如何通过技术创新来满足这些需求,如优化数据存储、提高I/O效率和设计适应分布式环境的架构。这些思想对于理解和改进现代云计算基础设施具有重要的指导意义。